檢索詞彙來源探析
En Empirical Study of Sources of Search Terms
陳佳君
Chia-chun Chen臺灣省立臺中圖書館
Publishing and Reference Department, Taiwan Provincial Library at Taichung
【摘要】
本文旨在探討檢索詞彙之來源與接續詞彙的演變情形。研究共計有效檢索者
37人進行40次檢索,產生411個檢索詞彙。研究發現,檢索者最常使用的詞彙來源是檢索互動來源,其次是書面問題陳述來源,而最不常被使用的檢索詞彙來源則是瀏覽檢出文獻來源。研究結果顯示,各詞彙來源與接續詞彙來源間之關係並非各自獨立,而是相互影響的,尤其是前後兩詞彙傾向選用同一來源;若前後為不同詞彙來源時,則檢索互動來源為接續詞彙之主要來源。本研究冀望藉由研究實際檢索過程,瞭解檢索詞彙來源與接續詞彙的演變情形,以增進資訊檢索系統對檢索者認知決策過程的瞭解,進而作為設計檢索中介系統之參考。【
Abstract】This paper is a study of the sources of search terms. 411 terms emerged as a result of 40 searches from 37 samples. The user interaction source provided the largest proportion of search terms (51.8%), followed by question statement source. Only 4.2% of search terms are the result of browsing retrieved items. An analysis of sequences of selected search terms indicates attended to come from the preceding source. When we consider different source to different source relationships in their own, user interaction is high likely the source of search terms.
關鍵詞:檢索詞彙來源;檢索詞彙;檢索策略;資訊檢索
Keywords:Sources of search terms;Search terms;Search strategy;Information retrieval
壹、問題陳述
這是一個逐漸走入資訊化的社會,隨著電腦網路的普及,人人似乎都必須具備使用電腦的基本常識。正因為如此,具有親和力的資訊檢索系統往往可以很快地獲得使用者的青睞,而資訊檢索系統設計的良窳便成為檢索者是否使用此系統的關鍵因素。廣義地說,所謂的「資訊檢索系統」是一個介於資訊使用者與資訊總體之間的一種設施。(註
1)換言之,資訊檢索系統應是一種中介體,它可以幫助資訊需求者獲取他所需要的資訊,並滿足需求。問題是,在眾多龐大而複雜的資訊檢索系統中,它應如何協助資訊需求者找尋真正的需要呢?這是一個令人好奇的問題。我們都知道語言是人類溝通的主要媒介,但有趣的是人與圖書館各項資訊系統間的互動關係,卻幾乎都是建立在以文字為溝通橋樑的基礎上。事實上,任何資訊檢索系統存在的目的都是希望擷取資訊需求者真正所需要的資訊,同時過濾、篩選對需求者無用的資訊。這是我們對資訊檢索系統最高的期望與理想。當各種原始資料經過選擇、徵集與概念分析之後,可以經過特定的詞彙轉換,將原始文獻的主、客體濃縮精簡為單筆的書目記錄。這些經過使用者或檢索系統轉譯的詞彙便代表該篇文獻的主要內容。相對地,資訊需求者提出檢索問題後,也同樣經過概念分析與詞彙轉換的過程,才能尋找他所需要的資訊。資訊使用者與資訊檢索系統間便藉由這種相似但逆向的轉換過程,並以相同的概念詞彙來達到擷取與過濾資訊的目的。因此,詞彙可以說是資訊使用者與各種資訊處理系統間最重要的溝通媒介。
一般而言,如果檢索者可以將問題以正確且適當的詞彙表達出來,而系統也可以對應(
match)相同概念的詞彙,則檢索者對檢索結果的滿意度應該是百分之百。也就是說,理想的檢索過程應該是一個「直接且精準的處理過程」(one-shot process),且以極為準確無誤的方式處理「提出問題→選擇檢索詞彙→進行檢索→提供答案」等程序。(註2)然而事實卻非如此,我們常看到檢索者因無法確切了解自己的需要,而找不到適當的詞彙來表達自身的資訊需求;另一方面,資訊系統對檢索者選擇詞彙的決策行為又不甚了解,以致檢索者所使用的檢索詞彙常與系統使用之索引詞彙不同,如此的誤差便導致查詢結果令人不滿意。自從
Cleverdon在其Cranfield I系統評估計畫中開始比較四種索引語言以了解自然語彙與控制語彙之檢索效益後 (註3),資訊檢索專家一直致力於改進人為的索引詞彙,希望能避免因使用自然語言而導致檢索詞彙的歧義與含混等問題。長久以來,這方面的成就斐然可觀,例如自動索引法、自然語言的處理等。然而,上述改進系統檢索語言的研究卻無法看出檢索者選擇詞彙的決策過程。直至近年,部分學者才開始嘗試探討檢索者的詞彙選擇行為,例如Fidel、Saracevic及Spink等。上述學者的研究或多或少指出有關檢索詞彙研究的概廓,但似乎在質與量上都無法充份滿足我們想了解檢索者選擇詞彙之決策過程的需求,因此本研究嘗試以實證的方式,探討檢索者之檢索詞彙來源及其演變過程,包括分析檢索詞彙來源,找出主要檢索詞彙來源,同時分析接續詞彙來源的演變關係。貳、文獻探討
一、檢索詞彙研究的方向與成就
瞭解檢索互動過程一直是資訊檢索專家急切探索的問題,而互動過程所使用的主要媒介
––檢索詞彙,更是分析檢索過程、改善檢索效益的經典課題。一般而言,檢索詞彙的研究可分為兩個主要的方向:一是依照一定程序求得答案稱之為演算研究途徑(algorithmic approach),另一個方向則是以合乎人性的研究途徑(human approach)探索檢索詞彙。演算途徑之研究方式通常會使用出現於問題或文獻中的文字作為開始查詢之詞彙,繼而利用語意網路或詞彙加權等方式產生另一組檢索詞彙。其研究方式則著重明確地表達或測試任何有助於機器選擇詞彙之技術。其次,就研究方法而言,演算途徑之研究方式大量利用數學、邏輯學、和統計學作為研究工具。反之,人性化的研究方式是指利用認知科學、心理學、語言學、和社會學等學科知識,瞭解資訊需求者的檢索行為。因此,人性化的研究途徑允許資訊需求者以任何工具和經驗獲取或修正檢索詞彙,強調觀察檢索者之決策過程、檢索行為和任何可能發生於詞彙選擇過程中之變數。(註4)這兩大研究途徑因少有重複之處,故而可相互彌補彼此之不足。因此,這兩種研究途徑必須齊頭並行,才能有助於資訊系統的改革與設計。(註5)針對檢索技術之演進,
N. J. Belkin將檢索技術分類如下圖所示:(註6)檢索技術
完全配合 部分配合
個別的 網路的
結構性 特徵性 聚集 瀏覽 催化
邏輯 圖示 正式 暫時
機率 向量空間 渾沌組
圖2-1 檢索技術分類表
資料來源:Nicholas J. Belkin and W. Bruce Croft, “Retrieval Techniques,” Annual Review of Information Science and Technology Vol.22 (1987): 112.
由上圖可看出早期之檢索技術要求檢索者必須輸入與系統完全相同的詞彙。但後來便逐漸發展出一些檢索功能而大大地增加檢索者選用詞彙的彈性,如切截檢索、布林邏輯等。不過
Belkin認為這些檢索技術最大的問題在於其研究基礎立基於操作性的實驗環境,而無法跳脫操控的限制。(註7)因此,無法指引檢索者在何種情況下應該使用哪些檢索技巧進行查詢。基本上,檢索互動過程之檢索詞彙研究,較早已眾所週知之索引詞彙評估晚了數十年;後者以
Cleverdon所進行之Cranfield第一期、第二期為典型代表。職是之故,或許我們可以說檢索詞彙的研究肇始於資訊檢索系統的評估,(註8)而評估的重點在提升系統功能,並強調各種檢索技術的應用,以期提高檢索效益。繼Cleverdon之後,許多資訊檢索專家不遺餘力地投入檢索詞彙的研究,包括控制詞彙與自然語言的比較、詞彙加權、自動索引與自然語言的處理等等。近來,開始出現以使用者行為為導向的研究,這類調查傾向利用真實存在的大型資料庫進行實際研究,而非經由小型或實驗性之檢索系統進行實驗,因此較之以往的研究更具代表性。二、檢索詞彙之相關研究
Saracevic認為無論就整個檢索階段或檢索者與資訊系統、檢索中介者之間的互動而言,選擇專業詞彙都是主要的過程,也是推動整個檢索過程的主要動力。(註9)了解檢索過程一直是資訊系統專家亟欲探索的問題。然而,是否真的可能存在一個典型的檢索過程呢? Saracevic等人曾提出,如果存在所謂「典型之檢索過程」(typical search),則此過程應包含15個指令、3個檢索循環、10個檢索詞彙、13分鐘的準備時間與14分鐘的檢索進行時間。(註10)換言之,在這整個過程中,所有涉入的因素都是我們想了解的對象。
一個有意義的檢索過程至少可能涉及檢索者、資訊系統及檢索中介者等三要素。對於詞彙的決定,這三要素其實都有決定性的影響,也各有其職司。基本上,資訊需求者是產生檢索詞彙之主要來源,同時也是評估檢索概念、檢索詞彙與檢索結果是否一致之評鑑者。但這並非意謂資訊需求者必須獨立完成檢索過程中與選擇檢索詞彙有關的一切活動。因為檢索中介者必須適時判斷某一詞彙是否適用,同時將資訊需求者所提供的原始關鍵字轉譯為系統所使用的控制詞彙。另一方面,系統索引典所列舉的控制詞彙也提供資訊需求者與檢索中介者選擇檢索詞彙之參考。因此在中介檢索中,資訊需求者可說是潛在檢索詞彙的主要來源,而檢索中介者則是決定是否使用此一詞彙的判斷者。(註11)
既然檢索中介者扮演了決定詞彙的角色,其檢索行為便成為研究人員另一個探討的方向。Fidel曾探討專業檢索者選擇詞彙之決策過程。結果發現,當檢索者滿意索引典(索引檔)品質時或其可獲性較高時,檢索者傾向使用系統提供之控制詞彙,而索引典品質與可獲性等與資料庫相關之特性就是影響檢索者是否選用敘述語檢索的最重要因素。此外,專業檢索者使用文內字及敘述語的比例差異不大,各約為44%及56%。(註12)其中概念型之檢索者多半會選用敘述語作為其檢索詞彙,而操作型檢索者則傾向同時使用敘述語與文內字兩種檢索詞彙。(註13)Spink的一項研究則發現檢索中介者較擅長利用詞彙相關回饋技術,且其詞彙多半來自題名與敘述語欄位。(註14)
除此之外,Fidel從認知觀點解釋選擇檢索詞彙之決策過程。她認為此決策過程包括檢索者必須把問題分析為單一的檢索概念,而每一個概念需藉由一組詞彙表達,其次檢索者必須找出獲得檢索概念之最佳詞彙。在此過程中,檢索者需執行的重要決策之一就是選擇檢索詞彙的形態(文內字或敘述語),同時必須分辨問題敘述中的詞彙是否是一個「好」的自然語言檢索詞彙?而該詞彙能否對應(mapped)系統之控制詞彙?(註15)Fidel亦認為為使中介專家系統能協助檢索者選擇檢索詞彙,因此有必要建立中介專家系統之專業詞彙知識結構,包括瞭解每一個詞彙之使用頻率與使用策略等。(註16)
除了從檢索互動過程了解檢索詞彙外,研究出現於資訊需求者問題敘述的詞彙也有助於我們了解檢索詞彙的選擇行為。例如,有學者利用問題敘述(query)中所出現的詞彙,或利用檢索所得之相關文獻找出其他檢索詞彙再行檢索。因為從問題敘述所獲得的關鍵字,我們可以利用系統索引詞彙找出檢索者可能使用的詞彙。(註17)也有學者利用統計、或然率等技術加權檢索詞彙,來增加相關文獻被檢索出來的機會。(註18)儘管專家學者企圖以對選用詞彙的加工來改進檢索效益,但Saracevic和Kantor等人卻發現各檢索者對同一問題選用相同詞彙的比例極低,只有27%;而不同檢索者查獲文獻之重複率更低,僅有17%。因此不同檢索者選用詞彙的差異性很大,而17%之低重複率則透露不同檢索者常以不同的方式解讀同一檢索問題,因此導致檢索結果的差異更大。(註19)
如從認知模式探究檢索詞彙的選擇行為時,詞彙間的語意關係應可預測檢索者可能使用的檢索詞彙。Palmquist和Balakrishnan曾以詞彙聯想(word association)觀點,並參考Belkin之知識異常模式(Anomalous States of Knowledge,ASK),探討詞彙使用的問題,並說明在無法確定資訊需求情況下,以字彙表達檢索問題所可能產生的影響。(註20)另外,Ferber等人則以聯想語意網(associative lexical net)協助檢索者選擇檢索詞彙。Ferber認為以自然語言描述問題可以幫助檢索者產生詞彙並將問題之概念具體化,同時經過檢索者內在檢視(internal examination)後 ,再輔以系統透過檢索互動所回饋之詞彙,便可經由聯想語意網模擬檢索詞彙的選擇過程。(註21)
如果我們再深入探索不同檢索者對同一問題所選用的詞彙是否接近時,會發現其比例極低,且檢索結果的差異性也極大。(註22)相反地,增加檢索詞彙的結果,常會導致花費更多的檢索成本。當然各檢索詞彙所具有的檢索意義並不相同,因此檢索系統應可利用相關回饋等方式,促使檢索者能具體了解最有效與最無效之檢索詞彙。(註23)
Iivonen也曾做過類似的研究。結果發現,在選用檢索詞彙方面,檢索者本身(intrasearcher)的一致性(53.6%)大於各檢索者間(intersearcher)的一致性(31.2%)。而同一檢索者選擇同一檢索概念之一致性(92.7%)亦大於各檢索者對檢索概念選擇的一致性(87.6%)。(註24)意即同一檢索者對檢索詞彙及檢索概念的選擇一致性均高於各檢索者間之一致性。值得注意的是,檢索者選擇檢索詞彙的一致性(53.6%,31.2%)遠低於選擇檢索概念的一致性(92.7%,87.6%),顯示檢索者分析問題時可能會忽略某些檢索主題間的些微差異,而未深入分析這些差異,但上述些微的差別卻會表現在檢索詞彙的選擇上。此項調查結果顯然極值得吾等重視,因為檢索者和資訊系統間幾乎都是透過檢索詞彙進行互動溝通的,倘若檢索者之檢索概念陳述與詞彙的選擇存在著如此大的差異,則資訊系統便應負起彌補此落差的責任。
如果我們可以得知檢索者所使用的詞彙來源,便能從這些來源中找出檢索行為的特性。Walker曾提出索引典與系統控制詞彙為最重要的詞彙來源,而以自然語言呈現之書面問題陳述雖是檢索詞彙之主要來源,但通常重要的檢索詞彙如新詞、日常口語(colloquialism)、或是頭字語(acronym)並不會出現在問題陳述或索引典中。(註25)Spink的一項研究則發現檢索者本身所產生的詞彙(即問題陳述與檢索者互動來源之詞彙總合)佔所有檢索詞彙之61%。(註26)其中,又以問題陳述來源之詞彙居多(38%)。至於,非源自檢索者之詞彙比例依次為索引典、詞彙相關回饋、和檢索中介者。(註27)Spink同時發現詞彙來源之選擇並非隨機發生的,各來源間呈現一個動態的詞彙選擇過程,尤其是前後相同來源的詞彙。(註28)
上述從檢索互動過程、問題的陳述或選用詞彙一致性到詞彙的語意關係、詞彙來源的選用,一一說明了以現今檢索詞彙的研究似乎無法尋得詞彙選擇行為的常規。另外,除了上述研究發現外,相關回饋技術也曾在1960年代廣泛地應用於檢索詞彙的研究;也有學者利用超文技術設計選擇詞彙之檢索介面,稱為BRAQUE(BRowsing And QUEry formulation)計畫。該計畫雖屬實驗性,且僅止於測試階段,但其研究方向卻值得鼓勵。(註29)此外,Blair認為資訊需求者想要檢索出相關文獻,尚必須受到字序(term-ordering)的限制。因為即使資訊需求者提出與索引詞彙相同之關鍵字,但假如這些詞彙屬於邊緣概念之詞彙,最後即使這些詞彙是檢索者提出之關鍵詞彙,其本身亦為索引詞彙,卻可能因其重要性之不同而被資訊需求者捨棄。(註30)換句話說,找出與索引詞彙相同的檢索詞彙並不保證可以查獲某篇相關的文章,尚且需要索引者和資訊需求者對代表該篇文獻概念之關鍵詞彙在字序具有相近的認知。
綜合言之,檢索詞彙的選擇是一種認知決策過程,努力使此過程能更清晰地呈現將使資訊檢索系統更臻人性化。此外,從研究主題之演變亦可清楚看出資訊檢索之研究方向已逐漸朝向以使用者為重心。早期對索引詞彙之研究與利用相關回饋技術、機率理論、與向量空間等理論所獲得之研究成果,造就了今日所使用之檢索中介系統。冀望今後能有更多探討使用者決策過程與檢索行為之研究,俾以作為未來設計合乎人類認知活動之檢索資訊系統之依據。
參、研究設計與實驗進行
本研究的主要目的在了解光碟資料庫檢索者的詞彙來源,因此研究對象的選取以親至國立台灣大學心理學系圖書室查詢光碟資料庫之資訊需求者為限。所謂
「檢索詞彙」乃指研究對象開始輸入檢索敘述到執行查詢指令(enter)前之所有鍵入內容,包括單字、複合詞及其與布林邏輯運算檢索、切截檢索、限定欄位檢索(如題名、作者、摘要、敘述語、關鍵片語、出版年)組合所成之檢索詞彙。但不包含布林邏輯運算元本身(boolean logic operators)and、or、及not,和檢索過程中因錯誤行為所產生的詞彙,如拼字錯誤、誤鍵、重複輸入等檢索詞彙。本研究採實證研究法,利用問卷法、觀察法、與訪問法搜集資料,研究對象、方法與步驟說明如下:一、研究對象
研究對象限於本身具有資訊需求之台大在學大學部、研究所碩、博士班學生。研究對象的選取採用便利性抽樣法(
convenience sampling)。研究地點的選擇則配合研究對象的正規活動及行為,並以不改變場地為原則,因此選定台大心理學系圖書室為實驗觀察地點。同時也因該圖書室在性質上屬於專門圖書館,使用者的學科背景相似且同質性高,較易看出其檢索行為特性與傾向。研究進行時間為84年12月6日至翌(85)年1月22日。研究者採駐守方式,除了在該圖書室門口張貼宣傳外,並商請館員協助引介,以增加資訊需求者參與的比例與意願。研究對象的決定並不在於其是否具有該資料庫之檢索經驗,而以本身是否為資訊需求者為唯一條件。二、研究工具與步驟
心理系圖書室之單機版光碟資料庫包括
PsycLIT光碟資料庫期刊類兩片、圖書及會議論文一片(1987年1月至1995年9月)、CLINPSYC(1980年1月至1993年6月)、Psyndex(1977年至1992年3月)等五片,由於此三種光碟資料庫使用相同的檢索語言,同時顧及行文方便,故將其統稱為PsycLIT光碟資料庫。研究步驟則說明如下,首先徵求館員之同意與協助,並於圖書室門口張貼廣告;研究者採駐守方式,當徵得資訊需求者同意後,請其填寫檢索問題表並自行檢索、轉錄資料,最後由研究對象進行相關判斷,所得資料經整理、編碼後利用視窗版之「社會科學統計套裝軟體」進行資料分析與解釋,也就是確定檢索詞彙來源之類別、檢索前之說明與填寫檢索問題表、進行檢索與相關判斷的過程:
(一)確定檢索詞彙來源之類別
資訊檢索系統所使用的語言可分為自然語言、人工語言與指令語言等三種(註31),這三種語言可能交互出現於檢索互動過程中,因此,詞彙來源的選擇也就顯得更為複雜。Spink依據檢索過程所出現的互動現象,將檢索詞彙來源分為五類,包括書面問題陳述、互動過程中源自使用者之詞彙、檢索中介者所提供之詞彙、系統索引典提供的詞彙、與瀏覽檢出文獻後所產生的詞彙。(註32)由於本研究實際進行觀察時發現許多詞彙來自系統索引檔,故本研究將原擬定之五類來源增加系統索引檔來源。經整理原始資料後發現實際使用索引典來源之檢索者僅有一位,且詞彙數只有4個,為求統計分析上之意義,故將索引典來源歸併於索引檔來源中。此兩類來源之所以歸併,其原因乃在於索引典詞彙與索引檔詞彙均是系統提供檢索者選用檢索詞彙時之清單,兩者雖有自然語言與控制語言上的差異,但基本上其功能與呈現方式接近,都是經過整理並依序排列之詞彙來源,故本研究將所出現之4個索引典來源詞彙歸入系統索引檔來源應屬合理。另一方面,索引典與索引檔之重要功能在於兩者皆是系統於檢索過程中提供檢索者選用詞彙之參考來源,故應可歸為同類詞彙來源。以下即分別說明此五類詞彙來源之意義。
1.書面問題陳述來源:此項詞彙來源意指研究對象進行檢索前必須填寫書面問題陳述,當研究對象所使用的詞彙曾出現於該書面問題陳述時,則此詞彙的來源為「書面問題陳述來源」。
2.檢索互動來源:檢索過程中,選用之檢索詞彙乃源自檢索者與研究者或檢索系統間之互動,最後仍由檢索者自行產生詞彙之來源稱為「檢索互動來源」。
3.研究者提供之詞彙來源:進行檢索前或檢索過程中,由研究者建議並經檢索者採用之詞彙,其來源即為「研究者提供之詞彙來源」。
4.瀏覽檢出文獻之詞彙來源:研究對象在檢索過程中,因瀏覽檢出文獻而獲得之檢索詞彙,其來源即屬「瀏覽檢出文獻之詞彙來源」。
5.系統索引檔來源:研究對象利用系統索引檔或索引典顯示詞彙,並從中選取詞彙進行查詢,此詞彙來源即為「系統索引檔來源」。
(二)檢索進行前之說明與填寫檢索問題表
當研究對象同意參與研究後,隨即填寫一份檢索問題表。一次檢索可以同時查詢多個問題,毋須退出系統重新進入,但必須將各檢索問題明確陳述。同時,研究對象被告知不可選錄(mark)單篇資料轉錄,意即研究對象決定轉錄某篇書目時,必須將該詞彙查獲之所有檢索結果全數轉錄。此外,由於檢索結束後需做文獻內容與檢索問題間之相關程度判斷,故一次轉錄(download)的篇數以不超過50篇為原則。但研究對象如堅持轉錄檢索結果超過五十篇之檢索組,則仍尊重研究對象之決定。檢索進行時,亦不得與他人(除研究者之外)討論有關任何檢索詞彙或策略,但可以翻閱工具書(如字典)或查閱教科書。此外,檢索過程中可以詢問研究者任何有關檢索詞彙與策略上的問題。
(三)進行檢索
研究對象必須親自進行檢索,而研究者採用無結構之參與式觀察法,其優點在於研究者可有較多涉入檢索情境的研究空間。因此,研究者依研究目的將所觀察之有關檢索互動的各種現象與行為一一記錄下來。記錄的重點以該檢索詞彙之來源為主,是為日後來源歸類之主要依據之一。同時,對於瀏覽檢出文獻來源之詞彙,均須經過研究對象的確認。至於檢索過程與檢索結果的取得則利用系統之轉錄功能獲得。由於受限於研究工具與設備,如果檢索過程中發生當機時,則以下述原則處理:研究對象瀏覽檢出文獻時發生當機,若可確定當機前的檢索過程與結果均已轉錄,或當機情況發生於系統執行查詢時,而當時電腦螢幕之檢索過程與結果亦可依序記錄,則上述兩種情況視為有效研究對象。但對於當機後無法取得完整之檢索詞彙者,即視為無效之檢索樣本。最後以研究對象進行檢索時之認知進行相關判斷。
本研究之目的在了解檢索過程中有關詞彙來源之各種變化,因此不同之檢索策略均視為檢索互動行為,故檢索詞彙的整理原則包含各種檢索策略的應用。此外,判斷檢索詞彙來源之標準以該詞彙第一次出現之來源為依據。資料編碼與分析則取自研究對象之書面問題陳述、光碟檢索過程記錄、及研究者實際觀察之記錄。最後由研究對象根據檢索時之認知狀態,判斷各檢出文獻之相關程度。
有關資料分析與編碼的過程說明如下。首先列印各次檢索之檢索過程,其次,剔除該檢索過程中被重複使用之詞彙與檢索結果,同時刪除因錯誤行為而產生的檢索詞彙與查詢結果,最後得一依序呈現之檢索詞彙清單。根據此檢索詞彙清單便可進行詞彙來源的歸類。首先將該檢索詞彙清單核對書面問題陳述,如果檢索清單上的詞彙同時出現於書面問題陳述,則其來源即為書面問題陳述;其餘檢索詞彙再根據觀察記錄區分詞彙來源;由於先前已剔除重複詞彙與檢索結果,故觀察記錄中所記載之詞彙來源即為該詞彙之真正來源。現將有關檢索詞彙之界定與來源歸類之原則敘述如后:
一、詞彙整理原則
(一)布林邏輯運算檢索:當檢索者結合兩個以上詞彙進行布林邏輯檢索時,其有效檢索詞彙為檢索者所輸入之完整檢索敘述。例如查詢「A
andB」時,系統螢幕會同時出現A與B各自查獲的筆數,如果研究對象未轉錄A或B,而A、B只是顯示檢索結果的必然過程,原則上有效詞彙為檢索運算後的結果(即AandB)。但如果研究對象轉錄A或B其中一筆,則A、B、AandB視為三個有效的檢索詞彙。(二)其他檢索:對於詞類變化、切截檢索、縮寫字、複合字均視為有效之檢索詞彙。由於
PsycLIT光碟資料庫之期刊類共有兩片,因此對於更換不同收錄年限之光碟片後再以同一詞彙進行查詢之檢索行為均視為同時查詢,故有效詞彙僅有一個,後者之檢索篇數則累加至前次之檢索結果。二、詞彙來源歸類原則
檢索詞彙來源的歸類以該詞彙第一次出現時之來源為依據,除研究設計之歸類方法外,若限定欄位檢索之詞彙乃由研究者建議並經檢索者採用,則該詞彙之來源歸為研究者提供之詞彙來源。若檢索者說出主題概念而由研究者提供檢索詞彙,或瀏覽檢出文獻時由研究者建議使用檢出文獻中之詞彙,則此類詞彙之來源均歸為研究者提供之詞彙來源。
有些出現於書面問題陳述之單一概念詞彙,於進行檢索之初便以布林邏輯運算出現,由於可以判定該研究對象並未與系統產生任何互動行為,故該詞彙的來源是書面問題陳述。若該詞彙雖為該次檢索之第一個詞彙,但先前曾出現被視為無效之檢索詞彙,則因可辨別此詞彙乃是經過檢索互動而產生的,故列為檢索互動來源。
三、資料分析
資料搜集完整後,利用視窗版「社會科學統計套裝軟體」進行檢索詞彙來源之分析,並利用對數—線性模式(
log-linear model)中之獨立模式(independence model)和準獨立模式(quasi-independence model)分析檢索詞彙來源之演變。