檢索問題對資訊尋求和資訊檢索之影響

An Empirical Study on Information Seeking and Information RetrievalFocusing on the Role of Questions

黃慕萱Mu-hsuan Huang

國立臺灣大學圖書資訊學系教授

Professor, Department of Library and Information Science,

National Taiwan University

E-Mail:mhhuang@ccms.ntu.edu.tw

 

陳明君Ming-chun Chen

國立臺灣大學圖書館特藏組

Special Collection Department, N T U Library

E-Mail:ivy@ms.cc.ntu.edu.tw

 


 摘要

本文探討光碟資料庫終端使用者之檢索問題對資訊尋求和資訊檢索之影響。本研究以國立臺灣大學學生為研究對象,以PsycLIT光碟資料庫為檢索系統,計有52位檢索者,總共進行58次檢索。本研究系統化地蒐集終端使用者之檢索背景、檢索問題和檢索結果,對於檢索問題進行性質上的分析,並進而探討檢索問題對檢索結果的影響。

Abstract

This article analyzes the information seeking and information retrieval behavior of undergraduate and graduate students at National Taiwan University when using PsycLIT database. 52 subjects were studied through the semester, carrying out 58 searches. This study investigates information seeking and information retrieval by analyzing the use and influence of questions.

關鍵詞:檢索問題;資訊尋求;資訊檢索

Keywords:Question;Information seeking;Information retrieval

一、問題陳述

人們為了解決所面臨的資訊爆炸(information explosion)困境,而有資訊系統的發明;資訊系統的功能不僅在於儲存及處理資訊,更在於讓人們以最有效率的方式獲取所需資訊,故有資訊科技的不斷研發。然而,效率的提升僅憑系統單方面加強其儲存容量與處理速度是不足的,尚須令系統儘量配合使用者的想法與行動來提供資訊,所以今日系統設計的指導原則逐漸由系統導向轉為使用者導向,唯有從使用者角度所設計的資訊系統,才能充分發揮溝通的效益;因此由使用者的角度進行有關資訊檢索之研究,已成為不可避免的趨勢。換言之,如何分析並了解使用者之資訊需求、檢索問題、檢索過程及其對資訊尋求及資訊檢索之影響等,均為資訊檢索中刻不容緩之重要研究議題。

檢索問題是使用者面臨的難題、資訊尋求的動機和目的,以及內在知識狀態的呈現,對於檢索者決定要檢索什麼資料、如何進行檢索的影響很大。(註1)而檢索問題反映出檢索者已發展之有關其資訊需求的心智模型,檢索者的認知型態影響到檢索問題的型態,同時支配著答案是否符合檢索者的資訊需求(註2),因此必須從檢索者對問題認知的觀點研究問題的性質,檢視不同特性的檢索問題對於資訊尋求和資訊檢索之影響。

有關檢索問題理論方面之研究,大多是純粹探討檢索問題本質的論述,以助於對問題的瞭解,進而提升檢索效益。這類文獻並不多,除Taylor(註3)、Saracevic & Baxter(註4)對檢索問題的界定略有論及外,尚有Derr(註5)、Graesser & Murachver(註6)(註7)等學者曾探討檢索問題的性質與結構。其中Taylor提出資訊需求的四個層次,從內藏的資訊需求(the visceral need)、意識化之資訊需求(the conscious need)、正式之資訊需求(the formalized need)到妥協後之資訊需求(the compromised need),雖然未經實證研究證實,但其影響相當深遠。而Saracevic和Baxter對問題分類的研究,後續許多研究皆援例採用,作為測定不同檢索問題類型之影響性的依據。他們區分檢索問題類型為前置問題(lead-in)、主題(subject)、題目(query)與限制四部份,並開創依範疇(domain)、清楚程度(clairly)、專指度(specificity)、複雜度(complexity)、及前提假定(presuppsoition)五種屬性分類問題的先河。

關於檢索問題分類的實證方面研究,至少包括Saracevic & Kantor(註8),Iivonen(註9)及Keyes(註10)等之作品。其中Saracevic和Kantor沿用Saracevic和Baxter的五大屬性,而Iivonen只使用專指度和複雜度兩種屬性,至於Keyes則將問題另分為查證型(verification)、概念完成型(concept completion)、因果型(causation)、聯想型(association)與非聯想型(disassociation)五種。依據不同的分類準則,學者設計不同的研究說明不同類型問題對資訊尋求和資訊檢索之影響。

國內目前有關資訊尋求和資訊檢索的研究,不論是理論導向或是實證導向,都已開始萌芽,但有關過程與問題方面的研究仍稍嫌不足。在短期內,除少數文史研究外,國人學術研究可能仍以參考國外的資料為主,因此瞭解國人檢索西文學術資料庫的行為,一直是相當值得重視的議題。有鑑於此,本計畫以國立臺灣大學學生為研究對象,以PsycLIT光碟資料庫為檢索系統,系統化地蒐集終端使用者之檢索背景、檢索問題和檢索結果,對於檢索問題進行性質上的分析,進而探討檢索問題對檢索結果的影響。

二、研究設計和研究對象

本研究利用線上電子佈告欄(Bulletin Board System,BBS)及人工張貼佈告的途徑,於國立臺灣大學校園內公開徵求資訊需求者,招募52位願意參加本研究之資訊需求者,總共進行58次檢索,進行2次檢索之實驗對象並不多,只有4位,另有1位檢索者進行3次檢索。在本研究中,每一位實驗對象必須填寫兩份問卷,第一份問卷是「檢索者背景問卷」,目的是調查檢索者的個人背景資料,包括性別、學科背景、年級和資訊檢索系統之檢索經驗等。第二份問卷是「檢索問題背景問卷」,在填寫檢索問題背景問卷前,檢索者必須口頭陳述其檢索問題,研究者以實地錄音的方式,以期獲得較詳細而完整的資料,作為分析檢索問題範疇和前提假定個數及性質的依據。在「檢索問題背景問卷」中,請檢索者將其檢索問題分解成幾個概念,分別列出相關的詞彙、同義字與不想列入檢索的詞彙,再配合錄音所得之資訊需求,作為分析檢索問題複雜性和專指性之依據。同時也蒐集實驗對象對此次檢索主題的熟悉程度和本次問題的檢索經驗等相關資料。

終端使用者在檢索之前,必須聽取研究者半小時的資料庫使用說明,為了讓所有的說明一致,研究者根據其所撰寫之「PsycLIT光碟資料庫使用說明」,逐步介紹資料庫之內容範圍、檢索方式和修改檢索策略之方法。主要的目的在於確定不論研究對象是否曾使用過PsycLIT,皆瞭解資料庫的主題、收錄範圍、收錄資料類型、收錄年代、基本檢索方式和修改檢索策略的基本觀念等,以控制因訓練方式不同所產生的變因。基本上,使用說明包括PsycLIT光碟資料庫簡介、檢索方式介紹(包括主題檢索、作者檢索和限定欄位檢索)、修改檢索策略介紹(包括檢索結果筆數過多與過少時之因應方法),同時舉一檢索範例加以具體說明。而後,由研究對象自行進行檢索。在檢索過程中,研究者在旁記錄觀察的結果,檢索者必須獨立完成檢索,研究者只扮演旁觀者的角色,即使檢索者發問,研究者也不會回答任何問題。檢索者完成檢索後,研究者利用訪談法,確認在檢索過程中觀察發現的問題。同時透過PsycLIT光碟資料庫本身的功能抓取檢索策略與檢索結果。

本研究一共有52位檢索者,其中男性11位(佔21%),女性41位(佔79%),女性檢索者將近4倍於男性。而來自非心理系所的研究對象共有18位,以女性居多(共有15位),男性只有3位;來自心理系所的研究對象共有34位,絕大多數為女性,共有26位,男性則僅有8位,而根據心理系提供之資料,該系大學部和研究所學生男女比例將近一比一,因此可知女性參與研究之意願較高。由表1顯示,在52位檢索者中,有32位是研究生(61.5%),包括碩士班學生26人(50%),博士班學生6人(11.5%);有20位是大學部學生,大一和大二各有2人(各佔3.9%),大三有4人(佔7.6%),大四則有12人(佔23.1%)。許多前人的研究顯示,線上資料庫之終端使用者最大族群為研究生,而本研究光碟資料庫的使用者中,亦以研究生為主,超過半數(61.5%),若以大三以上為高年級,可發現所佔比例更高達92.2%(48人),而低年級(大一和大二)則只有7.8%(4人)。至於研究對象的學科背景,表2顯示檢索者之系別,檢索者來自心理系所的有34人(65.4%)最為集中,其他系所則較為分散,社會系所有5人(9.7%),城鄉所有4人(7.8%),護理系所有2人(3.8%),其餘公衛所、醫學系、生化所、語言所、圖書資訊所、資管系和歷史系之檢索人數皆僅有1人(各佔1.9%)。造成心理系所檢索人數較多的原因,應和PsycLIT光碟資料庫為心理學重要的專業資料庫有關,心理系所學生原本即為主要的使用者,因此研究對象集中於心理系所學生是相當自然的現象。

針對檢索者資訊系統的使用經驗進行分析,本研究中有38位檢索者(73.1%)表示曾經使用過PsycLIT光碟資料庫,但上學期使用的次數並不多,平均每人只有使用過5.04次,標準差為6.37。至於其他光碟資料庫的使用經驗,有35位檢索者(67.3%)表示曾經使用過其他光碟資料庫,其中以MEDLINE、SCI、SOCIOFILE和中華民國期刊論文索引光碟資料庫較多。而所有檢索者皆使用過線上公用目錄,上一學期平均每人使用過20.81次,標準差為24.73。總而言之,上一學期檢索者使用次數較多的是線上公用目錄,其次是PsycLIT光碟資料庫,曾使用過其他光碟資料庫之檢索者則較少。

本研究的重點在分析終端使用者之檢索問題及其對檢索結果之影響。先從檢索問題之範疇、複雜性、專指性與前提假定等四個構面進行分析,同時說明檢索者之該次問題的檢索經驗對主題熟悉程度之影響,再探討檢索問題對檢索結果之影響。

三、檢索問題分析

在分析檢索問題方面,根據終端使用者口頭及書面陳述之檢索問題進行分析。依據研究對象口頭陳述之資訊需求,分析檢索問題的範疇和前提假定的個數及性質;至於問題的複雜性和專指性則同時根據口頭陳述的資訊需求及檢索者在「檢索問題背景問卷」中寫下的概念詞彙進行分析。

在本研究中,52位研究對象共完成58次檢索。在52位研究對象中,有4位進行2次檢索,1位進行3次檢索。在2次檢索的4位檢索者中,僅有1位延續檢索與第1次相關主題的問題,3位檢索與第1次不同的檢索問題;進行3次檢索的檢索者,其中2次檢索相關主題,1次檢索不同主題,因此共有2個與第1次檢索相關的問題。仔細分析此2組問題(檢索編號4和35以及編號14和52),發現雖然第2次檢索的主題與第1次相關,但是其問題的範疇、複雜性、專指性和前提假定之個數與性質皆有變化,例如編號4之研究對象的問題是「跟師生間的權力互動有關的,跟權力知識相關的,也就是師生之間的權力分析。」,而在第2次檢索時,陳述的資訊需求則為「我這次要找的主題跟上次一樣,也是以權力為主要的概念,我想用『社會交換』的角度來看權力要怎樣定義。」(編號35),因此進行問題範疇、複雜性、專指性和前提假定之個數與性質分析時,將此4個問題皆視為個別的問題,共針對58個檢索問題進行分析。

四、檢索問題對資訊尋求和資訊檢索之影響

本研究中所提的資訊尋求和資訊檢索,以使用者自行檢索之檢索結果描述之。首先分析各次檢索之檢索結果,包括檢索行數、檢索筆數、相關筆數以及精確率,再分析不同範疇、複雜性、專指性與是否包括前提假定的檢索問題對檢索結果之影響。

五、結語

歸納本研究結果,在光碟資料庫終端使用者之檢索問題性質方面,先就檢索問題範疇而言,以社會與人格心理學方面最多(21次,36.2%),臨床心理學次之(20次,34.6%),再其次是有關實驗與認知心理學方面(10次,17.2%),至於工商心理學範疇則有7次,佔12%。在問題的複雜性方面,實驗對象自行分析和研究者分析的結果皆以包含三個概念最多,但就平均值來看,研究者分析問題複雜性的平均值為3.05(標準差為1.21)高於終端使用者自行分析的結果(平均值為2.79,標準差為0.81)。造成差距的原因主要有二個,一是部份實驗對象只分析出主題的概念,但研究者分析的標準是將問題中代表主題和題目的概念皆視為個別的概念;另一個原因是終端使用者將不同的概念歸為一個概念,因此研究者分析出的概念較多,複雜性較高。另就檢索問題的專指性來看,58次檢索之檢索問題的專指性並不高,平均值為2.53,標準差是0.81。可發現本研究中檢索者之檢索問題的複雜性和專指性皆不高。至於檢索問題中有32次(55.2%)檢索之問題中不包含前提假定,另有將近一半的檢索包含前提假定(26次,44.8%),其中包含一個前提假定的有22次,佔37.9%,包含二個前提假定的檢索則有4次(6.9%)。在含有前提假定的26次檢索中,共有30個前提假定,當中只有5個有關時間的前提假定可以利用系統限制的功能進行檢索,其他的前提假定在目前的資訊系統中,皆無法直接檢索。另就前提假定的性質而言,用想要檢索「X和Y之關係」的方式陳述檢索問題的檢索者最多(8次,26.7%)。

在檢索問題對檢索結果之影響方面,本研究發現檢索問題的確對檢索結果造成影響,主要的影響在於檢索問題的複雜性,檢索問題愈複雜,則檢索行數愈多。至於檢索問題的範疇、專指性與包含之前提假定個數對於檢索結果並沒有影響,但是如果這些用來陳述檢索問題的方式,例如關係、應用、差別、影響等出現在重要欄位時是可以檢索的,是否能提高檢索滿意度,則需要進一步之研究。

一般而言,資訊需求外顯為檢索問題,雖說資訊需求不一定會轉化成檢索問題,但沒有資訊需求,就不會產生檢索問題。在資訊尋求與資訊檢索的文章中常將問題及人視為影響資訊尋求和資訊檢索的最大因素。許多實證研究紛紛進行,雖然無法得到一致的結果,除證明人類行為的複雜性外,更顯示我們需要更多的研究,才能瞭解人類的思考和行為。為設計出適合國人使用的資訊系統,我們期待更多本土研究,包含國人檢索西文資料庫,更包括國人在中文資料庫上的資訊尋求和資訊檢索。

誌謝:感謝國科會贊助本研究計畫「檢索問題、檢索詞彙及心智模型對資訊尋求和資訊檢索之影響研究」(計畫編號NSC87-2415-H002-047)。

 

註釋

  1. Tefko Saracevic and Matthew A. Baxter, On a Method for Studying the Structure and Nature of Requests in Information Retrieval, Proceedings of the 46th Annual Meeting of the American Society for Information Science 20(1983): 22-25.
  2. John G. Keyes, Using Conceptual Categories of Questions to Measure Differences in Retrieval Performance, Proceeding of the 59th Annual Meeting of the American Society for Information Science 33(1986): 238.
  3. Robert S. Taylor, Question Negotiation and Information Seeking in Libraries, College & Research Libraries 29:3(May 1968): 178-194.
  4. 同註1。
  5. Richard L. Derr, A Classification of Questions in Information retrieval by Conceptual Presupposition, Proceedings of the 45th Annual Meeting of the American Society for Information Science 19(1982): 69-71.
  6. A. C. Graesser and T. Murachver, Symbolic Procedures of Question Answering, in The Psychology of Questions, eds A. C. Graesser, J. B. Black, and Lawrence Hillsdale(NJ: Lawrence Erlbaum Associates, 1985):15-18.
  7. 同註2。
  8. Tefko Saracevic, P. Kantor, A. Y. Chamis, and D. Trivison, A Study of Information Seeking and Retrieving. I. Background and Methodology, Journal of the American Society for Information Science 39:3(May 1988): 161-176.
  9. Mirja Iivonen, Consistency in the Selection of Search Concepts and Search Terms, Information Processing and Management 31:2(1995):173-190.
  10. 同註2。
  11. American Psychological Association, Thesaurus of Psychological Index Terms (Washington, D.C. : American Psychological Association, 1997).