交 流 園 地
植病所昆蟲組
黎歷偉
1.了解自己的需求:需要甚麼資訊?需要多少資訊?需要高回現率抑或高精確 率?與主題相關的資訊已知程度如何?預定花多少時間檢索?
2.分析主題概念,研究是否可再把概念細分,把關鍵概念抓出來。不妨拿筆作 「沙盤推演」。
3.按主題選擇相關學科的資料庫。
4.把主題概念轉譯成為檢索敘述」。
此牽涉學養問題,檢索者應對其檢索範圍有一定程度的瞭解。定出檢索範圍
是窄(專一)或是廣(普遍),需要高回現率抑或是高精確率。在窄(專一)
檢索範圍時不應用太普遍的用語。例如昆蟲學家查有關研究昆蟲的文獻時,
不應用 INSECTS來查,因很多研究昆蟲的文獻根本不會用'INSECTS'作標題或
系統關鍵詞。其它細節有:
●把系統不能檢索的stopwords(如the、a、of、to等)拿掉。
●聯想其它同義詞
在同一研究領域可能出現意義相同或接近但不同用詞的用語。嘗試用意識流
的手法,把隨意想到的 keywords同義字(形容詞、名詞、動詞、同種異名)
記下來,再作篩選。用自然語言製訂檢索用語要小心,既要盡思其變(以期
一網打盡),又要避免殃及池魚(避免檢索到不想要的)。
●用準確的關鍵詞,會得到理想的結果。
記著電腦檢索是以字元一一對應的檢索,不會自動幫你辨認別的拼法。
*單數與複數的分別
必須注意單數與複數的分別,這是大家檢索時最常忽略的一點。例如 MAN,
MEN;POTOTA,POTATOES拼法的差異分別是字中央和字尾。應盡量想出
單複數其可能的拼法,用OR來連接。
*截字、萬用字元
若相同字首、字尾的關鍵詞太多,可用截字字元(或稱萬用字元 Wildcard
Character)切截。各系統使用的截字字元不同,最常用的是 *。如 insect*
可代表 insect 和 insects ,不過得想清楚,小心有相同字首卻與主題無關的字
眼使誤中副車!(如 insect* 包括了 insecticides)。
*注意英語中英美拼法的不同
如 SULFUR (US)= SULPHUR (Br.)
BEHAVIOR = BEHAVIOUR
CATALOG = CATALOGUE
不確定者請先查字典。目前的資料庫製作者主要是湯姆大叔的天下,日不落
的較少,故理論上控制字彙大部份是美式英語,不過因不同國籍的作者用字
問題,資料庫製作者可能沒有統一處理,在題名還是同時存在兩拚法,所以
最好是雙管齊下,把兩種拼法用or連接才不致有遺珠之嘆。
*注意有沒有連字符Hyphen
如databases、data bases與data-bases,意思雖同但電腦的檢索字串結果會不一
樣,解決方法還是老話:盡思其變,用or連接。
*符號與縮寫的表達
如同位素、攝氏度℃等有上、下標,ASCII無法顯示的符號與縮寫,應參閱
資料庫的檢索手冊的說明。
5.決定關鍵詞的關係,以布林邏輯運算元(Boolean operators)連繫、交集組合。 多關鍵詞的「複合條件」可考慮使用「括弧」分辨組合,注意括弧位置影 響組合意義和運算元的執行順序,如(A∩B)∪C ≠ A∩(B∪C), 一般資料庫的運算元執行順序是:括弧、NOT、AND、OR。
6.畫Vann Diagram(威恩圖)檢查分析邏輯關係。
有時數個觀念在一起時,用文字不易搞清楚交集關係,畫圖則能一目了然。
7.關鍵詞有否前後關係?
例:"中and國"包括了"中國"和"國中"二觀念;需否用相近運算元(proximiting
operators )限制在欄位的前後位置,如 "中國" 連在一起不能顛倒,或如 "中
xx國"中間可加入其它字及必須在同一欄位等。各系統有不同作法,如Silver
Platter用with代表同一欄位、near代表同一欄位且毗鄰。
8.是否在特定欄位檢索?
選擇在那些欄位檢索(題名、作者、出處、敘述語),是否跨欄位。在特定
欄位檢索能加快檢索速度,並能減少檢索到不相關的資料。在指令語言,欄
位選擇一般用in,如LAI-LW in au 即作者是LAI-LW。
● 作者欄位檢索
作者名字用全寫或縮寫?有否連字符(Hypen)?有否空格?一般作者姓氏是放
在前面,名字只以每字的首字母作縮寫。是否用hyphen則視乎各資料庫規定,
著錄方式不一。例:以筆者的名字為例,在AGRICOLA是LAI-L-W,在SCI
是LAI-LW。另外,中國人名字部份得特別注意有否hypen連接。目前台灣和
大陸的人名一般都有hyphen,香港的則沒有hyphen。例:在Biological Abstracts
資料庫中筆者名字記作LAI L-W和LAI L W。用 or 同時考慮兩拼法會較為保
險。
● 數值欄位檢索
在數值欄位,如出版年、卷號、領域代碼等,需對數值範圍(Range)使用「等
於、大於、小於」的比較運算,例:出版年>=1988即出版年是1988年或之後。
注意有些資料庫會對運算符號有特殊標記,如>變成.>.,須參考資料庫的檢
索手冊。
9.若使用控制字彙的欄位檢索,應查索引典找對應的代碼和用語。
10.鍵入檢索敘述,進行檢索。
11.判斷檢索結果是否合乎理想、不理想時修正檢索用語,擴大或縮小檢索。 有時可直接使用已檢索過的集合作交集,例如:s1 and s2,#1 or #2。
★ 小提示 ★
●注意製訂檢索敘述有如做學問,應該「盡思其變」,把所有可能的關鍵詞與組 合想出來(如同義字、字根、單複數問題),或可找教授聊聊、閱讀有關領域 的專書和手冊,擴充關鍵詞。
●規畫檢索方案
檢索前先規畫好如檢索結果不如理想時的「相應方案」,如改檢索敘述、擴大
檢索。再三思考關鍵詞是否精確,並把檢索敘述預先寫下來,不然上機時出其
它狀況或想到其它觀念易忘記原來的檢索、掛一漏萬。檢索結果不理想時應馬
上補上另一檢索組合,避免在電腦前發呆浪費時間。
●檢索非常耗時──故應「把每次檢索使用的檢索敘述記下來」。最好把敘述記 在輸出檔前,翻查時一目了然。以免重蹈覆轍,浪費金錢與檢索時間。(一名 研究生一年可能要為自己與指導教授檢索上二十次,若不在檔頭記下檢索敘述, 怎能記得?)而且研究室內同仁的檢索結果應互相交流、分享相同領域的檢索 結果,避免再花時間檢索;並且集思廣益,切磋關鍵詞。
檢索方向有很多,個人認為如以讀者需求而分,可分為:
Fact Search 已知部份確定的資料,欲查其它完整的書目資料者。
例如:已知一作者在某年有發表一論文,欲查原文的題名和出處。
Recall Search 寧濫毋缺,全面封殺!
目的是高回現率,供撰寫研究報告、Review、計畫書用。
要求與主題相關(有時弱相關也接受),資料量是越多越好。希
望把「所有」相關的資料一網打盡。一網成擒的方法除了查索引
典用控制語言的descriptor與代碼外,尚可滾雪球(Snowballing):
滾descriptor 把檢索結果的敘述語(descriptor)輸出,重覆投入
作為檢索敘述(Recursion遞迴)。使檢索結果與敘
述語越來越多,檢索範圍一般是發散。例如Silver
Platter的資料庫用Select滾敘述語。
滾citation 把檢索結果的引用文獻輸出,重覆投入作為檢索
敘述,使之檢索更多引用文獻。檢索範圍是發散,
會越來越大。
滾雪球適合在對該領域不熟悉,未能想到好的檢索敘述或懶得查
索引典時使用。
Some Search 與主題相關就好,不需要很多。
例如學生為了寫期末報告而蒐集數篇文獻。
Precision Search 寧缺毋濫,要求高精確率。
例如要了解某工藝的最新技術,就不需要很多報告,卻要與
主題密切相關。
一般我們只會進行回溯性檢索(Retrospective Search),檢索已發表的文獻。另 一方面,在蒐集較新資訊,可利用定期專題檢索服務SDI(Selective Dissemination of Information),委託專人對特定題目定期提供有關最新資料。使相關領域的研究人員 能充電,補充最新發展的資料,不致與大環境脫節。目前國科會科資中心有提供此 服務。
其實一般讀者也可自行行之,只需把特定題目的檢索策略(Search Strategy) save 起來,(在 Silver Platter 的資料庫中是 History 項,Save和 Run)。以後在新版CD- ROM來時跑一次圖書館,在資料庫新增的部份RUN一次檢索策略,即可補充新資 料。不過,有些圖書館因怕感染電腦病毒而因噎廢食,強制讀者的磁片皆需重新 FORMAT,則此方法行不通。
●輸出檔案格式
檢索後的輸出檔案欄位,大部份同檢索欄位如Author、Title、Source等。而其
中有很多一般讀者沒有興趣的資料,如期刊代碼CODEN、ISBN等,可要求不輸
出以免浪費列印紙張及增加處理上的困擾。例如Silver Platter的資料庫中Download
options的Fields選CITN即代表citation,每筆記錄只顯示AU(作者)、TI(題名)、
SO(出處)等主要資料。有些資料庫輸出更可選擇特定bibliographic軟體格式,如
SCI可選擇ProCite格式,直接讀入。
●檔案修飾
若輸出時忘記設定輸出欄位,可「亡羊補牢」利用「書中仙」特有的巨集功
能如錄影機般把過程(如 Search 字串, Next, Mark Block, Delete Block)記錄下
來,再重覆執行把不需要的欄位殺掉。由於是自動執行,修飾檔案非常方便。(
下期館訊將有專文介紹檔案修飾的實務。)
●Bibliographic software
隨著檢索次數的增加,輸出結果檔案會越來越多,有否軟體可幫忙整理呢?
Bibliographic software 可讀入資料庫的輸出檔,並可修改、標記、進行排序、統一
格式等工作,是寫論文引用文獻的最佳助手,畢竟把引用文獻的書目資料抄來抄
去是很無聊而易出錯的工作。據筆者所知目前的Bibliographic software至少有11個,
著名如EndNote、ProCite等;在國內,中興大學昆蟲學系的康世昌也寫了一個
REFKA,相當不錯。
用 Bibliographic software 整理轉錄自CD-ROM資料庫的輸出結果也算是咱家研
究領域的資料庫,如只作個人研究用,不公開使用或再行出售的話,不算侵犯版
權。
問:我已知一文獻的出處,為何在資料庫卻找不到?
答:原因 關鍵詞不對或打錯字
收錄年份不符──很多CD-ROM都是一片收錄數年甚或只有一年的資料
,檢索不同年份時需要換片;一般沒有一片即可查
盡歷年資料庫的。且CD-ROM是近年才大量生產的,
沒有收錄較早年份(如1970年前)的資料是其不足,
需要者請查紙本的摘要期刊。
資料庫沒有收錄該期刊──各資料庫都有其領域方向,收錄的期刊數
目有限。確定有否收錄可查各資料庫的Serials guide。
因為資料庫收錄的期刊各異,故有時需同時查數個
資料庫。
問:可否把整片CD-ROM的資料Download至硬碟帶回去慢慢查?(最近市面上甚至
有專門機器可把CD-ROM拷貝到可抹寫光碟MO中!)
答:別妄想!因為
資料量問題───每片CD-ROM儲存了600多MB的資料,活生生把一台硬碟
吃掉了!
版權問題────這是電子方式的直接拷貝,絕對是侵犯了版權,可能要坐
牢啊!
洋洋洒洒的談了這麼多,大家也許已經意識到投稿時訂定 keywords 與題名是
非常重要的,往往影響到有多少人用線上檢索檢索到,所以應審慎行事。(寫文獻
卻沒有人引用是很可悲的。)
在這個知識氾濫的世代,資料的檢索會越來越重要(看看現在關連式資料庫的
發展和有關線上檢索的期刊數量就知道)。個人期望未來有應用人工智能、hypertext
、具聯想能力的專家系統出現,幫助研究員更快更好的檢索前人研究成果。
感謝圖書館學系黃慕萱老師提供寶貴意見。
傅祖慧。1990。科學論文寫作。台北市藝軒。278pp.
蔡明月。1991。線上資訊檢索──理論與應用。台北市台灣學生書局。415pp.
黎歷偉。1994。生物學資料庫BIOSIS在科資網路的使用實務。台大電算中心通訊
83年1月號 pp.34-46
黎歷偉。1994。光碟資料庫網路使用技巧。台大電算中心通訊83年3月號 pp.12-13
Neal, P.R. 1993 Personal bibliographic software programs: a comparative
review.
Bioscience 43(1):44-51.
Walker, T.J. and P.M. Choate. 1994. Inputting CD-ROM records-a
comparison
of bibliographic software. BioScience 44(4):269-271.
更正:
上期本文文首「知識以每n年m倍的速度增長」,實為筆誤,應為「資訊以每n年
m倍的速度增長」。因研究報告的是資訊,但不一定是知識;資訊不是知識,只有
消化過的資訊才是知識。(參考孔祥重〞資訊革命與社會提昇之互動〞--第二十屆
中研院院士會議演講稿,中國時報83年7月12日意見橋)
有關資訊爆炸的問題,筆者推薦〞資訊焦慮〞(時報出版,1994,318頁)一書。