台大工學院圖書分館館訊 第十三期 第12-22頁

World Wide Web 搜尋工具淺介

WWW的魅力眾所皆知
然而也因其所展現豐富、多元化的資源
常使人迷失其中!!
此時"搜尋工具"即發揮它的作用...

總圖參考室
邱婉容


前言

  Internet 上有著極豐富的資源,World Wide Web(WWW)便是其中之一,但由於 其數量極大又無組織,如果沒有適當的搜尋工具,要找到需要的資源,有如大海撈針 般的困難。所幸國內外已有系統的發展出多種搜尋工具來協助網路使用者尋找網路上 的資源,而且大部分都可免費使用。一般而言,搜尋工具可分為兩種類型,一種是將 網路上的資源依主題或資源類型等來排序,便於使用者以瀏覽方式獲取所需資料(我 們可將其稱為directory);另一種(英文名稱為 search engine) 則是利用自動化的robot, 如 Wander,Spider,Harvest,及 Pursuit 定期從網路上蒐集資源。

  以下便就搜尋工具中可免費使用者,提出數種做個別的簡單介紹。

************************************************************************

搜尋工具-國內

蕃薯藤網際網路資源索引 (YamWeb Navigator - The Taiwan Index)
URL: http://taiwan.csie.ntu.edu.tw/bin/yam

基本資料:
 ‧由開拓文教基金會的 Formosa on WWW 工作小組規劃製作
 ‧主要搜集台灣相關的 Web 首頁(homepages),漸擴充至亞太地區台灣相鄰國家   與全球華人相關的資料
 ‧因與國外搜尋工具 Yahoo! 結構類似(Yahoo!的簡介請見下文),有人將其稱為   台灣的 Yahoo!
 ‧資料庫中包括 HTTP、Gopher、及 BBS
 ‧提供兩種搜尋方式,一是依主題分類;一是輸入字串查詢
 ‧列出其他網路搜尋工具供連結使用

檢索特色及需注意事項:
 ‧查詢時可選擇要查整個蕃薯藤或只查目前所在的類別
 ‧可用萬用字元”*”插入字詞中,以代替不確定的字,一個”*”代表其兩端的文   字之間最多相隔10個字元(相當於五個中文字)
 ‧關鍵字/詞最多輸入10個
 ‧關鍵字/詞以空白分隔,例如:台南 廟宇 古蹟
 ‧有布林邏輯運算元”and”與”or”的選項
  註:一開始出現的速查窗口沒有此選項(預設為”or”),但按下”查詢鍵”即   會出現”and””or”的選項。

結果顯示:
 ‧僅出現前十五筆最符合的資料,超過者則列於各資料類別中

其他:蕃薯藤中有些特別的符號,在此做個簡單的介紹:
 ‧綠圓圈或綠方塊代表是分類目錄
 ‧藍圓圈或藍方塊代表是URL
 ‧眼鏡:是蕃薯藤推薦值得一看的site
 ‧"NEW"(細體):如果出現在目錄旁,代表該層目錄中最近五天有新增的資料,           如果出現在連結資料旁,則代表該款目是最近五天內新加的
 ‧"NEW":代表該連結資料是最近兩天內新加的
 ‧英:代表該連結只有英文資料

***************************************************************************

搜尋工具-國外

Alta Vista
URL: http://altavista.digital.com

基本資料:
 ‧由 Digital Equipment Corporation 發展
 ‧可檢索 Web 或 全文檢索 Usenet newsgroups 上發表的文章
 ‧收有約二千一百萬個 Web pages,一萬三千多個 newsgroups

檢索特色及需注意事項:
 ‧用小寫查時,資料內容不論是大寫或小寫,皆可查出(case-insensitive)。但如用   大寫來查,會限制只查到資料內容用大寫的。
  例如:用 turkey 查,資料中有 turkey、Turkey 或TURKEY 的都會被查出;如用   Turkey 查,則只有資料中有 Turkey 的才會被查出。
 ‧提供兩種檢索模式:
 .Simple Query
   --可將輸入字串當成一個詞(phrase)來查(將字串以雙括號" "框起)。
    例如:"nuremburg trial"
   --可在每個字的左端用布林邏輯運算元,"+" 代表 "and";"|" 代表 "or";     "-" 代表 "not",不加任何符號則代表 "or"。
    例如:+cinnamon +apple -pie
   --查詢 Web 時,可限制只查詢 Web 的 title、URL、host 或hyperlink。
    例如:url:home.html
   --查詢 Usenet newsgroups 的文章時,可限制只查詢該篇文章的 from、subject、     newsgroups、summary、或 keywords。
    例如:subject:"for sale"
   --不自動切截 (exact match)。
    例如:輸入 teenage,便只會查到 teenage,不會查到 teenager,如要切截,     則在字尾加萬用字元 "*",不過其最多再加五個字母
 .Advanced Query
   --同於 Simple Query;不同處在於其布林邏輯運算元用 "and" (或 "&")、     "or" (或 "|")、"not" (或 "!") 來表示,而且可以用括弧來設定字與字之間的     布林邏輯關係
    例如:sheep and (ox or oxen)
   --可在字與字之間, 用相近運算元"near"(或"~")來設定字之間的距離在10個     字以內
   --如要將 and、or、not及 near 當成一般字來檢索,則以雙括弧 " " 將其框起。

結果顯示:
 ‧將結果評比給分後依分數排序顯示,符合以下條件者分數較高:
  .輸入的字串出現在 Web 的 title 或文件的最前面;
  .字與字之間距離較近者;
  .符合較多查詢字彙者
 ‧有兩種顯示方式:compact 及 detailed

Deja News
URL:http://www.dejanews.com

基本資料:
 ‧Deja News Research, Inc. 的產品
 ‧針對 Usenet 而發展的搜尋工具
 ‧全文檢索 Usenet 上極大部分 newsgroups 自西元1995年3月起發表的文章   (newsgroups 中有 alt.*、soc.*、talk.*、及 binaries 者除外)
 ‧每天更新一至二次
 ‧預計擴充資料庫的深廣度:收錄 alt.*.、soc.*、talk.* 的 newsgroups;將原本資料   的年限往前延伸
檢索特色及需注意事項:
 ‧提供兩種檢索模式:
  .基本檢索:即為在 Deja News HomePage 提供的檢索;
   --可將輸入字串當成一個詞(phrase)來查(將字串以雙括號" "框起),     字串中至少要2個字不是 stopwords
   --不自動切截 (exact match),如要切截,則在字尾加萬用字元"*"
   --可用布林邏輯運算元,"&" 代表 "and";"|" 代表 "or";"&!" 代表"and not",     如果字與字之間不加任何符號,則代表 "and"。
   --可以用括弧來設定字與字之間的布林邏輯關係。
   --可在字與字間用"^"來設定字與字之間相隔幾個字。
    例如:microsoft ^50 monopoly
    如果"^"之後未加數字,系統設定相隔5個字,
    例如:microsoft ^ monopoly
   --可用大括弧 { } 將字串框起,以設定一個字後面可加幾個字母。
    例如:{monkey monkeying} 可檢索到 monkey, monkey's, monkey73,monkeying 等
   --可限制查詢以下欄位,而且欄位之間可用布林邏輯運算元連接做更精確的     查詢
      author (發信人)
      subject
      newsgroup
      creation date (發信日期)
         例如:~s netscape 2.0 & ~g tw.*comp.*
   --查到的資料可利用 "query filter" 進一步限制在 "newsgroup"、     "date(發信日期)"或 "author (發信人)" 的欄位查詢
  .Power search
   --同於基本檢索,差別處在於其提供多種檢索選項,如:
    .可選擇 "containing any of your keywords" 或 "containing all of your keywords"      (亦就是布林邏輯的 "and" 與 "or")
     註:如已在檢索欄中用了布林邏輯運算元,系統以其為準
    .可選擇檢索 "current database"(近三個月的資料)或 "old database"     (西元1995年3月起之資料)
    .可選擇顯示模式要 concise mode 或 detailed mode
    .可設定發信日期的重要度
結果顯示:
 ‧有兩種顯示方式:
  .concise mode (系統預設值):一筆結果顯示一行,包括發信日期,分數,    標題,討論群及發信人的片段資料
  .detailed mode:顯示欄位同上,但每個欄位顯示完整的資料
 ‧可選擇依分數、日期、討論群或發信人排序(系統預設值依分數排)
 ‧符合以下條件者分數較高:
  .查詢字彙出現次數較多者
  .關鍵字佔整篇文章比例較高者
  .文章日期較新者

excite
URL:http://www.excite.com

基本資料:
 ‧Architext Software 的產品
 ‧可檢索 Web 或 全文檢索 Usenet newsgroups 上二個星期內發表的文章
 ‧收有約一百五十萬個 Web pages,一萬個 newsgroups

檢索特色及需注意事項:
 ‧不使用布林邏輯運算元,系統同時做 "and" 及 "or" 兩種關係的查詢,符合較   多查詢字彙的 Web site 分數較高,排在前面,其他的則排在後
 ‧提供兩種檢索模式:
  .keyword searching
  .concept-based searching:根據所輸入字串找出主題相同的資料(即使該資    料並未出現輸入之字彙,只要主題相同,皆會顯示)

結果顯示:
 ‧excite 以兩種方式評比檢索的結果
  .一是顏色符號(紅色符號代表該 Web page 非常相關;黑色符號則代表不太肯    定)
  .另一是百分比,代表檢索結果與鍵入字串的相關度
 ‧結果可以兩種方式排序
  .依評比排序(by confidence)(系統預設值):也就是依上文所提的顏色符號及    百分比排序
  .依 Web site 排:此種排法對查詢出的 Web page 有許多是出自同一個 Web site    時頗有幫助
 ‧依評比排序時,每個 Web site 列有 summary,其是由 excite 自動找出該 Web page   中最重要及最具代表性的數段句子加以組合

Lycos "Catalog of the Internet"
URL:http://www.lycos.com

基本資料:
 ‧由Carnegie Mellon University 的 Michael Mauldin 博士領導發展
 ‧號稱索引了 91﹪的 WWW
 ‧資料庫中包括 HTTP、Gopher、及 FTP
 ‧被索引的部分包括 URL,title,headings 和 subheadings,100個最具代表性的字及   文件的前二十行
 ‧資料庫每日更新

檢索特色及需注意事項:
 ‧提供兩種檢索模式:
  .基本檢索:即為在 Lycos HomePage 提供的,要注意的是其布林邏輯是 "or",    所以如果是要 "and" 的關係,就要選擇用 "search form";
  .Search Form:
   --可在 "search option" 中選擇輸入字串的關係是 "match all terms" 或"match any      terms"(亦就是布林邏輯的 "and" 與 "or")
   --可設定查得的結果只符合鍵入字串中的某幾個字(有助於查詢有數種拼法     的字彙)
 ‧自動切截,例如:輸入 teen 便可查到 teen, teens, teenage 等。如果不要切截,則   在字後面加一個 "."

結果顯示:
 ‧有三種顯示方式:
  .standard results
  .detailed results
  .summary results
 (通常用其預設的 "standard results"就夠了)
 ‧將結果評比給分後依分數排序顯示,符合以下條件者分數較高:
  .查詢字彙出現次數較多者;
  .字與字之間距離較近者;
  .符合較多查詢字彙者

Open Text Index
URL:http://www.opentext.com

基本資料:
 ‧由 Open Text Corporation 發展
 ‧收有27,671,020 個 hyperlinks
 ‧資料庫每日更新

檢索特色及需注意事項:
 ‧被索引的部分為WWW中所有的字(真正的全文檢索),非常適合查詢偏僻及細   微的主題
 ‧可查看鍵入字彙出現處的內文
 ‧提供三種檢索模式:
  .Simple Search Mode
   --查詢 WWW 的全文
   --可選擇將輸入字串當成一個詞 (phrase) 來查,在此狀況下不自動切截     (exact match);
   --可選擇輸入的字串的關係是 "All of these words" 或 "Any of these words"     (亦就是布林邏輯 "and" 與 "or"),每個字都會自動切截。
  .Power Search Mode
   --不自動切截(但單複數除外,例如:輸入 disease 亦會同時查到 diseases)
   --可用布林邏輯運算元 "and"、"or"、"but not"來檢索
   --可用 相近運算元 "near"、"followed by" 來檢索
   --可限制只查詢 WWW 的 URL或 title 或 first-level headings 或 summary或其整個     文件
  .Weighted Search Mode
   --同於 Power Search Mode;惟一的差別在於可給每個輸入的字加權指數,查     得較符合需要的資料

結果顯示:
 ‧可選擇是否要顯示 summary、大小、URL、分數、鍵入字彙出現處的內文

WebCrawler
URL:http://www.webcrawler.com

基本資料:
 ‧原為 University of Washington 的 Brian Pinkerton 的計劃,目前已移轉予American   Online, Inc.
 ‧收有73,434 個 Web servers

檢索特色及需注意事項:
 ‧被索引的部分為 WWW 中所有的字 (URL 除外)
 ‧可選擇輸入的字串的關係是 "Find pages with all of these words" 或 "Find pages with   any of these words" (亦就是布林邏輯 "and" 與 "or")
 ‧檢索簡易,非常適合初學者,但相對上檢索能力較其他搜尋工具弱,無法進行   較深入的檢索

結果顯示:
 ‧會根據相關性給每筆結果一個分數(最多100,最少0),並依該分數高低排序  ‧只顯示分數及該 Web page 的 Title

Yahoo!
URL:http://www.yahoo.com

基本資料:
 ‧可選擇查詢 Web pages,Gophers,FTP,Usenet newsgroups 或全文檢索 Usenet   newsgroups 上發表的文章
  註:如選擇要全文檢索 Usenet newsgroups 上發表的文章,是利用Yahoo 的檢     索方式去查詢 Deja News 的資料庫
 ‧提供兩種搜尋方式,一是依主題分類;一是輸入字串查詢
 ‧被索引的部分包括 title、URL 及 comment
 ‧列出其他網路搜尋工具供連結使用

檢索特色及需注意事項:
 ‧可選擇輸入的字串的關係是 "All Keys" 或 "At least one of the keys" (亦就是布林   邏輯 "and" 與"or")
 ‧可選擇輸入的字要完全符合(complete words)或只是某個字的一部分(substrings)

結果顯示:
 ‧會顯示三種不同類型的資料:
  .符合輸入字串的Yahoo分類主題;
  .符合輸入字串的Web site;
  .符合的 Web site 所屬的主題

其他:Yahoo! 中有些特別的符號,在此做個簡單的介紹:
   .[Xtra!]:代表可連到與該類主題相關的路透社新聞
   .眼鏡:是 Yahoo! 推薦在該類主題中具代表性的 site
   ."NEW":代表該款目是最近三天內新加的,如果是在目錄旁出現此符號,     代表該層目錄中有款目最近三天內被更新
   .@:出現在某類的右邊代表該類有出現在 Yahoo! 別的主題下

**************************************************************************

  另有兩個收費的搜尋工具 InfoSeek 及 NlightN,因其檢索能力極強,且其資料 庫中除了Web 外,尚包含數種其他類型的資源,故在此做個簡單的介紹。

InfoSeek
URL:http://www.infoseek.com

 ‧此資料庫中除了 Web pages,Gopher,FTP 外,還包含 Usenet newsgroups 上發   表的文章、電腦相關的報紙/雜誌、電傳新聞(news wires)、工商資訊、電   影/書籍/錄影帶評論等,其中大部分都能提供全文資料
 ‧可免費查詢 Web,Gopher,FTP,及 Usenet newsgroups 上發表的文章,其他資   料庫則都要付費才能檢索
 ‧一次只能選擇一種資料庫查詢
 ‧可檢索詞 (phrase);有布林邏輯運算元;有相近運算元;結果依系統給的分數   排序

NlightN
URL:http://www.nlightn.com

 ‧此資料庫中除了蒐集電子資料庫外,還包含書本式資料庫。其資料庫可分為五大   類:Internet(只收 WWW,目前由 Lyco提供)、database(索引、摘要、及全文   資料庫)、news wires(電傳新聞)、desktop references(參考工具書)、及 Book   Store(書籍)。使用者透過 NlightN 的 Universal Index 同時查詢這些資料庫
 ‧不申請帳號即可使用 NlightN 的部分功能,可免費查詢並瀏覽結果,但惟有申請   帳號(申請帳號免費,索取資料才需付費),才能申請購買全文資料,才能查看   每日新聞,檢索功能方面才提供更多選擇(例如:可限制只查詢某種資料庫;可   檢視之前所用的檢索字詞)
 ‧可用布林邏輯運算元,"&"代表"and";"|" 代表 "or";"^" 代表 "not",如果字串間不   加任何符號,則代表 "and"。

使用搜尋工具需注意的事項:
1.如有時間最好先閱讀其提供的線上簡介/手冊/FAQ,因為:
 (1)搜尋工具就像網路上其他的資源一樣,瞬息萬變,常不定期新增多種功能,所以   本文僅能當做參考,要掌握各個搜尋工具的最新發展,一定要閱讀其本身提供的   資料  (2)搜尋工具就像現在許多光碟資料庫或線上資料庫一樣,各有各不同的檢索特色,   要能查到最精確的資料,便要充分了解該搜尋工具的檢索功能。
2.不要只使用一種搜尋工具,沒有一種搜尋工具可被稱做是最完善的,每種搜尋工具  各有其特色,最好根據需求來選擇數種適當的搜尋工具。
3.網路上隨時都有可能增加新的搜尋工具,最好隨時注意相關訊息,其可從網路相關  的 newsgroups 或listserv 得知;另外許多 Web site 皆會連接搜尋工具供使用者使用而  且會時常更新,亦可透過此種方式得知是否有新的搜尋工具出現。

參考書目:

‧Courtois, Martin P.;Baer, William M.;and Stark, Marcella. "Cool Tools for Searching the Web:A Performance Evaluation." Online 19 (November/ December 1995): 14-33.
‧Liu, Jian. "Understanding WWW Search Tools."
http://www.indiana.edu/~librcsd/search
‧Scoville, Richard. "Find It on the Net." PC World 41 (January 1996):125-130.