總圖參考室
邱婉容
前言以下便就搜尋工具中可免費使用者,提出數種做個別的簡單介紹。
************************************************************************
搜尋工具-國內
基本資料:
‧由開拓文教基金會的 Formosa on WWW 工作小組規劃製作
‧主要搜集台灣相關的 Web 首頁(homepages),漸擴充至亞太地區台灣相鄰國家
與全球華人相關的資料
‧因與國外搜尋工具 Yahoo! 結構類似(Yahoo!的簡介請見下文),有人將其稱為
台灣的 Yahoo!
‧資料庫中包括 HTTP、Gopher、及 BBS
‧提供兩種搜尋方式,一是依主題分類;一是輸入字串查詢
‧列出其他網路搜尋工具供連結使用
檢索特色及需注意事項:
‧查詢時可選擇要查整個蕃薯藤或只查目前所在的類別
‧可用萬用字元”*”插入字詞中,以代替不確定的字,一個”*”代表其兩端的文
字之間最多相隔10個字元(相當於五個中文字)
‧關鍵字/詞最多輸入10個
‧關鍵字/詞以空白分隔,例如:台南 廟宇 古蹟
‧有布林邏輯運算元”and”與”or”的選項
註:一開始出現的速查窗口沒有此選項(預設為”or”),但按下”查詢鍵”即
會出現”and””or”的選項。
結果顯示:
‧僅出現前十五筆最符合的資料,超過者則列於各資料類別中
其他:蕃薯藤中有些特別的符號,在此做個簡單的介紹:
‧綠圓圈
或綠方塊代表是分類目錄
‧藍圓圈或藍方塊代表是URL
‧眼鏡:是蕃薯藤推薦值得一看的site
‧"NEW"(細體):如果出現在目錄旁,代表該層目錄中最近五天有新增的資料,
如果出現在連結資料旁,則代表該款目是最近五天內新加的
‧"NEW":代表該連結資料是最近兩天內新加的
‧英:代表該連結只有英文資料
***************************************************************************
搜尋工具-國外
Alta Vista
檢索特色及需注意事項:
‧用小寫查時,資料內容不論是大寫或小寫,皆可查出(case-insensitive)。但如用
大寫來查,會限制只查到資料內容用大寫的。
例如:用 turkey 查,資料中有 turkey、Turkey 或TURKEY 的都會被查出;如用
Turkey 查,則只有資料中有 Turkey 的才會被查出。
‧提供兩種檢索模式:
.Simple Query
--可將輸入字串當成一個詞(phrase)來查(將字串以雙括號" "框起)。
例如:"nuremburg trial"
--可在每個字的左端用布林邏輯運算元,"+" 代表 "and";"|" 代表 "or";
"-" 代表 "not",不加任何符號則代表 "or"。
例如:+cinnamon +apple -pie
--查詢 Web 時,可限制只查詢 Web 的 title、URL、host 或hyperlink。
例如:url:home.html
--查詢 Usenet newsgroups 的文章時,可限制只查詢該篇文章的 from、subject、
newsgroups、summary、或 keywords。
例如:subject:"for sale"
--不自動切截 (exact match)。
例如:輸入 teenage,便只會查到 teenage,不會查到 teenager,如要切截,
則在字尾加萬用字元 "*",不過其最多再加五個字母
.Advanced Query
--同於 Simple Query;不同處在於其布林邏輯運算元用 "and" (或 "&")、
"or" (或 "|")、"not" (或 "!") 來表示,而且可以用括弧來設定字與字之間的
布林邏輯關係
例如:sheep and (ox or oxen)
--可在字與字之間, 用相近運算元"near"(或"~")來設定字之間的距離在10個
字以內
--如要將 and、or、not及 near 當成一般字來檢索,則以雙括弧 " " 將其框起。
結果顯示:
‧將結果評比給分後依分數排序顯示,符合以下條件者分數較高:
.輸入的字串出現在 Web 的 title 或文件的最前面;
.字與字之間距離較近者;
.符合較多查詢字彙者
‧有兩種顯示方式:compact 及 detailed
Deja News
基本資料:
‧Deja News Research, Inc. 的產品
‧針對 Usenet 而發展的搜尋工具
‧全文檢索 Usenet 上極大部分 newsgroups 自西元1995年3月起發表的文章
(newsgroups 中有 alt.*、soc.*、talk.*、及 binaries 者除外)
‧每天更新一至二次
‧預計擴充資料庫的深廣度:收錄 alt.*.、soc.*、talk.* 的 newsgroups;將原本資料
的年限往前延伸
檢索特色及需注意事項:
‧提供兩種檢索模式:
.基本檢索:即為在 Deja News HomePage 提供的檢索;
--可將輸入字串當成一個詞(phrase)來查(將字串以雙括號" "框起),
字串中至少要2個字不是 stopwords
--不自動切截 (exact match),如要切截,則在字尾加萬用字元"*"
--可用布林邏輯運算元,"&" 代表 "and";"|" 代表 "or";"&!" 代表"and not",
如果字與字之間不加任何符號,則代表 "and"。
--可以用括弧來設定字與字之間的布林邏輯關係。
--可在字與字間用"^"來設定字與字之間相隔幾個字。
例如:microsoft ^50 monopoly
如果"^"之後未加數字,系統設定相隔5個字,
例如:microsoft ^ monopoly
--可用大括弧 { } 將字串框起,以設定一個字後面可加幾個字母。
例如:{monkey monkeying} 可檢索到 monkey, monkey's, monkey73,monkeying 等
--可限制查詢以下欄位,而且欄位之間可用布林邏輯運算元連接做更精確的
查詢
author (發信人)
subject
newsgroup
creation date (發信日期)
例如:~s netscape 2.0 & ~g tw.*comp.*
--查到的資料可利用 "query filter" 進一步限制在 "newsgroup"、
"date(發信日期)"或 "author (發信人)" 的欄位查詢
.Power search
--同於基本檢索,差別處在於其提供多種檢索選項,如:
.可選擇 "containing any of your keywords" 或 "containing all of your keywords"
(亦就是布林邏輯的 "and" 與 "or")
註:如已在檢索欄中用了布林邏輯運算元,系統以其為準
.可選擇檢索 "current database"(近三個月的資料)或 "old database"
(西元1995年3月起之資料)
.可選擇顯示模式要 concise mode 或 detailed mode
.可設定發信日期的重要度
結果顯示:
‧有兩種顯示方式:
.concise mode (系統預設值):一筆結果顯示一行,包括發信日期,分數,
標題,討論群及發信人的片段資料
.detailed mode:顯示欄位同上,但每個欄位顯示完整的資料
‧可選擇依分數、日期、討論群或發信人排序(系統預設值依分數排)
‧符合以下條件者分數較高:
.查詢字彙出現次數較多者
.關鍵字佔整篇文章比例較高者
.文章日期較新者
excite
基本資料:
‧Architext Software 的產品
‧可檢索 Web 或 全文檢索 Usenet newsgroups 上二個星期內發表的文章
‧收有約一百五十萬個 Web pages,一萬個 newsgroups
檢索特色及需注意事項:
‧不使用布林邏輯運算元,系統同時做 "and" 及 "or" 兩種關係的查詢,符合較
多查詢字彙的 Web site 分數較高,排在前面,其他的則排在後
‧提供兩種檢索模式:
.keyword searching
.concept-based searching:根據所輸入字串找出主題相同的資料(即使該資
料並未出現輸入之字彙,只要主題相同,皆會顯示)
結果顯示:
‧excite 以兩種方式評比檢索的結果
.一是顏色符號(紅色符號代表該 Web page 非常相關;黑色符號則代表不太肯
定)
.另一是百分比,代表檢索結果與鍵入字串的相關度
‧結果可以兩種方式排序
.依評比排序(by confidence)(系統預設值):也就是依上文所提的顏色符號及
百分比排序
.依 Web site 排:此種排法對查詢出的 Web page 有許多是出自同一個 Web site
時頗有幫助
‧依評比排序時,每個 Web site 列有 summary,其是由 excite 自動找出該 Web page
中最重要及最具代表性的數段句子加以組合
Lycos "Catalog of the Internet"
基本資料:
‧由Carnegie Mellon University 的 Michael Mauldin 博士領導發展
‧號稱索引了 91﹪的 WWW
‧資料庫中包括 HTTP、Gopher、及 FTP
‧被索引的部分包括 URL,title,headings 和 subheadings,100個最具代表性的字及
文件的前二十行
‧資料庫每日更新
檢索特色及需注意事項:
‧提供兩種檢索模式:
.基本檢索:即為在 Lycos HomePage 提供的,要注意的是其布林邏輯是 "or",
所以如果是要 "and" 的關係,就要選擇用 "search form";
.Search Form:
--可在 "search option" 中選擇輸入字串的關係是 "match all terms" 或"match any
terms"(亦就是布林邏輯的 "and" 與 "or")
--可設定查得的結果只符合鍵入字串中的某幾個字(有助於查詢有數種拼法
的字彙)
‧自動切截,例如:輸入 teen 便可查到 teen, teens, teenage 等。如果不要切截,則
在字後面加一個 "."
結果顯示:
‧有三種顯示方式:
.standard results
.detailed results
.summary results
(通常用其預設的 "standard results"就夠了)
‧將結果評比給分後依分數排序顯示,符合以下條件者分數較高:
.查詢字彙出現次數較多者;
.字與字之間距離較近者;
.符合較多查詢字彙者
Open Text Index
基本資料:
‧由 Open Text Corporation 發展
‧收有27,671,020 個 hyperlinks
‧資料庫每日更新
檢索特色及需注意事項:
‧被索引的部分為WWW中所有的字(真正的全文檢索),非常適合查詢偏僻及細
微的主題
‧可查看鍵入字彙出現處的內文
‧提供三種檢索模式:
.Simple Search Mode
--查詢 WWW 的全文
--可選擇將輸入字串當成一個詞 (phrase) 來查,在此狀況下不自動切截
(exact match);
--可選擇輸入的字串的關係是 "All of these words" 或 "Any of these words"
(亦就是布林邏輯 "and" 與 "or"),每個字都會自動切截。
.Power Search Mode
--不自動切截(但單複數除外,例如:輸入 disease 亦會同時查到 diseases)
--可用布林邏輯運算元 "and"、"or"、"but not"來檢索
--可用 相近運算元 "near"、"followed by" 來檢索
--可限制只查詢 WWW 的 URL或 title 或 first-level headings 或 summary或其整個
文件
.Weighted Search Mode
--同於 Power Search Mode;惟一的差別在於可給每個輸入的字加權指數,查
得較符合需要的資料
結果顯示:
‧可選擇是否要顯示 summary、大小、URL、分數、鍵入字彙出現處的內文
WebCrawler
基本資料:
‧原為 University of Washington 的 Brian Pinkerton 的計劃,目前已移轉予American
Online, Inc.
‧收有73,434 個 Web servers
檢索特色及需注意事項:
‧被索引的部分為 WWW 中所有的字 (URL 除外)
‧可選擇輸入的字串的關係是 "Find pages with all of these words" 或 "Find pages with
any of these words" (亦就是布林邏輯 "and" 與 "or")
‧檢索簡易,非常適合初學者,但相對上檢索能力較其他搜尋工具弱,無法進行
較深入的檢索
結果顯示:
‧會根據相關性給每筆結果一個分數(最多100,最少0),並依該分數高低排序
‧只顯示分數及該 Web page 的 Title
Yahoo!
基本資料:
‧可選擇查詢 Web pages,Gophers,FTP,Usenet newsgroups 或全文檢索 Usenet
newsgroups 上發表的文章
註:如選擇要全文檢索 Usenet newsgroups 上發表的文章,是利用Yahoo 的檢
索方式去查詢 Deja News 的資料庫
‧提供兩種搜尋方式,一是依主題分類;一是輸入字串查詢
‧被索引的部分包括 title、URL 及 comment
‧列出其他網路搜尋工具供連結使用
檢索特色及需注意事項:
‧可選擇輸入的字串的關係是 "All Keys" 或 "At least one of the keys" (亦就是布林
邏輯 "and" 與"or")
‧可選擇輸入的字要完全符合(complete words)或只是某個字的一部分(substrings)
結果顯示:
‧會顯示三種不同類型的資料:
.符合輸入字串的Yahoo分類主題;
.符合輸入字串的Web site;
.符合的 Web site 所屬的主題
其他:Yahoo! 中有些特別的符號,在此做個簡單的介紹:
.[Xtra!]:代表可連到與該類主題相關的路透社新聞
.眼鏡:是 Yahoo! 推薦在該類主題中具代表性的 site
."NEW":代表該款目是最近三天內新加的,如果是在目錄旁出現此符號,
代表該層目錄中有款目最近三天內被更新
.@:出現在某類的右邊代表該類有出現在 Yahoo! 別的主題下
**************************************************************************
另有兩個收費的搜尋工具 InfoSeek 及 NlightN,因其檢索能力極強,且其資料 庫中除了Web 外,尚包含數種其他類型的資源,故在此做個簡單的介紹。
InfoSeek
‧此資料庫中除了 Web pages,Gopher,FTP 外,還包含 Usenet newsgroups 上發
表的文章、電腦相關的報紙/雜誌、電傳新聞(news wires)、工商資訊、電
影/書籍/錄影帶評論等,其中大部分都能提供全文資料
‧可免費查詢 Web,Gopher,FTP,及 Usenet newsgroups 上發表的文章,其他資
料庫則都要付費才能檢索
‧一次只能選擇一種資料庫查詢
‧可檢索詞 (phrase);有布林邏輯運算元;有相近運算元;結果依系統給的分數
排序
NlightN
‧此資料庫中除了蒐集電子資料庫外,還包含書本式資料庫。其資料庫可分為五大
類:Internet(只收 WWW,目前由 Lyco提供)、database(索引、摘要、及全文
資料庫)、news wires(電傳新聞)、desktop references(參考工具書)、及 Book
Store(書籍)。使用者透過 NlightN 的 Universal Index 同時查詢這些資料庫
‧不申請帳號即可使用 NlightN 的部分功能,可免費查詢並瀏覽結果,但惟有申請
帳號(申請帳號免費,索取資料才需付費),才能申請購買全文資料,才能查看
每日新聞,檢索功能方面才提供更多選擇(例如:可限制只查詢某種資料庫;可
檢視之前所用的檢索字詞)
‧可用布林邏輯運算元,"&"代表"and";"|" 代表 "or";"^" 代表 "not",如果字串間不
加任何符號,則代表 "and"。
使用搜尋工具需注意的事項:
1.如有時間最好先閱讀其提供的線上簡介/手冊/FAQ,因為:
(1)搜尋工具就像網路上其他的資源一樣,瞬息萬變,常不定期新增多種功能,所以
本文僅能當做參考,要掌握各個搜尋工具的最新發展,一定要閱讀其本身提供的
資料
(2)搜尋工具就像現在許多光碟資料庫或線上資料庫一樣,各有各不同的檢索特色,
要能查到最精確的資料,便要充分了解該搜尋工具的檢索功能。
2.不要只使用一種搜尋工具,沒有一種搜尋工具可被稱做是最完善的,每種搜尋工具
各有其特色,最好根據需求來選擇數種適當的搜尋工具。
3.網路上隨時都有可能增加新的搜尋工具,最好隨時注意相關訊息,其可從網路相關
的 newsgroups 或listserv 得知;另外許多 Web site 皆會連接搜尋工具供使用者使用而
且會時常更新,亦可透過此種方式得知是否有新的搜尋工具出現。
參考書目:
‧Courtois, Martin P.;Baer, William M.;and Stark, Marcella. "Cool Tools
for Searching the Web:A Performance Evaluation." Online 19 (November/
December 1995): 14-33.
‧Liu, Jian. "Understanding WWW Search Tools."
http://www.indiana.edu/~librcsd/search
‧Scoville, Richard. "Find It on the Net." PC World 41 (January 1996):125-130.