上海楊浦網(wǎng)站建設(shè)神馬關(guān)鍵詞快速排名軟件
自從1994年問(wèn)世以來(lái),搜索引擎逐漸成為了人們獲取Internet信息資源的主要方式,相關(guān)搜索引擎網(wǎng)站也逐漸成為Web用戶使用Internet時(shí)的首選訪問(wèn)站點(diǎn)之一,另外搜索引擎和實(shí)時(shí)通訊、電子郵件等服務(wù)已經(jīng)成為當(dāng)今各大門(mén)戶網(wǎng)站用來(lái)吸引用戶訪問(wèn)的三大主要方式。據(jù)iResearch艾瑞咨詢報(bào)告說(shuō)明,2009年中國(guó)搜索引擎市場(chǎng)規(guī)模達(dá)69.6億元,年同比增38.5%。搜索引擎市場(chǎng)規(guī)模在網(wǎng)絡(luò)廣告市場(chǎng)規(guī)模占比也已達(dá)33.6%,相比2008年的29.6%上升4.0個(gè)百分點(diǎn)[1]。這些都充分說(shuō)明搜索引擎已經(jīng)成為Internet上一種重要的網(wǎng)站類(lèi)型。
利用搜索引擎獲取Internet信息資源也是網(wǎng)絡(luò)用戶常見(jiàn)的訪問(wèn)操作。本章首先主要介紹了搜索引擎在國(guó)外和國(guó)內(nèi)的發(fā)展歷史和現(xiàn)狀,通過(guò)對(duì)此問(wèn)題的了解,有助于我們認(rèn)識(shí)搜索引擎的特點(diǎn),如為什么搜索引擎是現(xiàn)在這個(gè)樣子?為什么該這樣使用搜索引擎?這些都是我們需要回答的問(wèn)題;其次,本章還簡(jiǎn)單討論了一下搜索引擎的基本原理,以此來(lái)加深讀者對(duì)搜索引擎的了解,從而更好的幫助讀者使用搜索引擎。事實(shí)上,有時(shí)候我們會(huì)覺(jué)得搜索引擎不是很好用,個(gè)中原因很復(fù)雜,但是有一點(diǎn)是肯定的,如果我們?cè)搅私馑阉饕?#xff0c;我們就會(huì)越能有效的使用搜索引擎。
1.1 搜索引擎的發(fā)展
搜索引擎這個(gè)名稱比較古怪,來(lái)自于它的英文名稱:Search Engine,言下之意,它是一種查詢信息的發(fā)動(dòng)機(jī)??梢哉f(shuō),整個(gè)搜索引擎的發(fā)展歷史就是Internet網(wǎng)絡(luò)的發(fā)展歷史,因?yàn)榫W(wǎng)絡(luò)用戶一直存在著從大量網(wǎng)絡(luò)信息中獲取自己所需信息的需求,而且這種需求隨著Internet的快速增加而日漸迫切。
按照查詢技術(shù)的發(fā)展過(guò)程,搜索引擎的發(fā)展經(jīng)歷過(guò)三個(gè)主要階段:第一階段時(shí)間跨度大致為1990年到1998年,這個(gè)時(shí)期的搜索引擎主要著力于解決如何快速有效的從大量網(wǎng)頁(yè)中獲取較為完整的搜索結(jié)果,開(kāi)始使用爬蟲(chóng)等信息收集方式和使用Web目錄等信息組織方式,代表性的搜索引擎有Altavista等;第二階段時(shí)間跨度大致為1998年到2004年,此時(shí)的Internet規(guī)模已經(jīng)相當(dāng)龐大,查詢結(jié)果是否完整似乎已經(jīng)沒(méi)有太大意義,相反搜索引擎開(kāi)始努力在查詢質(zhì)量和命中網(wǎng)頁(yè)結(jié)果的相關(guān)排序上來(lái)提高用戶的滿意度,基于網(wǎng)頁(yè)鏈接分析的算法逐漸被搜索引擎廣泛采用,Google就是典型的代表;第三階段時(shí)間跨度為2004年至今,各大搜索引擎不斷應(yīng)用先進(jìn)的技術(shù)來(lái)改進(jìn)功能,如增加多媒體信息查詢功能、個(gè)性化搜索引擎功能等。
1.1.1 國(guó)外搜索引擎的發(fā)展歷史
應(yīng)該說(shuō),如果沒(méi)有Internet就沒(méi)有搜索引擎。但是,在Internet出現(xiàn)之前,很多人所提出的思想和見(jiàn)解卻深深的影響了現(xiàn)代搜索引擎的出現(xiàn)和發(fā)展。比較著名的有兩個(gè)人物。
1945年,萬(wàn)尼瓦爾·布什(Vannevar Bush)在《大西洋月刊(The Atlantic Monthly)》上發(fā)表了一篇重要的文章《As We May Think》(中文譯名為“誠(chéng)若所思”)。雖然那個(gè)時(shí)代還沒(méi)有計(jì)算機(jī),但是在這篇文章中,作者提到了類(lèi)似于超文本的思想,同時(shí)還指出未來(lái)的世界會(huì)出現(xiàn)一種獨(dú)立于人類(lèi)大腦以外的知識(shí)擴(kuò)展體(Memory Extension),該物體具有無(wú)限大的虛擬空間,可以很好的擴(kuò)展,同時(shí)還能提供有效的信息獲取方法,作者稱之為“Memex”。該文如圖3. 1所示:
圖3. 1 《大西洋月刊》上的《誠(chéng)若所思》一文(截取于2010-3)
萬(wàn)尼瓦爾·布什大膽的預(yù)測(cè)了未來(lái)人類(lèi)可能會(huì)面臨的信息處理困境,這是他書(shū)中的原話“The difficulty seems to be, not so much that we publish unduly in view of the extent and variety of present day interests, but rather that publication has been extended far beyond present ability to make real use of the record”。
然而,萬(wàn)尼瓦爾·布什并沒(méi)有在技術(shù)上給出實(shí)現(xiàn)。20世紀(jì)六七十年代美國(guó)康奈爾大學(xué)(Cornell University)的杰勒德·沙頓(Gerard Salton)教授在信息檢索技術(shù)方面做出了很多貢獻(xiàn),很多技術(shù)直到今天還在搜索引擎中得到廣泛的應(yīng)用,如空間向量模型、詞頻、倒文檔頻率和相關(guān)度反饋等技術(shù),他甚至還研發(fā)了SMART信息檢索原型系統(tǒng)。
1.1.1.1 早期的搜索引擎
相對(duì)于其他類(lèi)型的信息服務(wù)類(lèi)型,Internet使用WWW服務(wù)的時(shí)間是比較晚的。所以,早期的Internet并不存在類(lèi)似于今天的搜索引擎,但是仍然出現(xiàn)了很多相似的工具。
1)Archie
1990年,加拿大蒙特利爾的麥吉爾大學(xué)(McGill University)的三位學(xué)生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明了Archie,據(jù)稱這個(gè)名稱來(lái)自于“Archive(檔案文件)”的縮寫(xiě)。當(dāng)時(shí)的Internet可以提供諸如FTP等文件信息服務(wù),然而用戶卻缺乏一種直接查詢FTP文件所在地址的工具。而Archie恰恰可以自動(dòng)索引Internet上匿名的免費(fèi)FTP文件信息,并提供一種根據(jù)文件名稱查詢文件所在FTP地址的方法。因此,Archie被稱為現(xiàn)代搜索引擎的祖先。然而,客觀的講,它并非一個(gè)真正的搜索引擎。原因有兩個(gè):一是它只能搜索FTP文件資源,并不能獲取諸如網(wǎng)頁(yè)等其他類(lèi)型的文件資源,因此它其實(shí)是世界上第一個(gè)FTP搜索引擎;二是它沒(méi)有機(jī)器人(Robot)程序,不能象今天的搜索引擎那樣快速有效的抓取Internet上的網(wǎng)頁(yè)文章內(nèi)容,相反它使用的是一個(gè)基于腳本的文件名稱收集器,并通過(guò)正則表達(dá)式來(lái)匹配用戶查詢與文件名稱來(lái)實(shí)現(xiàn)查詢,并通過(guò)文件列表的方式提供信息查詢結(jié)果。
2)World wide Web Wanderer
現(xiàn)代搜索引擎之所以可以查詢網(wǎng)頁(yè)信息,是因?yàn)樗哂幸粋€(gè)被稱為機(jī)器人(Robot)的程序,所謂機(jī)器人程序是指可以連續(xù)不斷的自動(dòng)獲取Internet上所有網(wǎng)頁(yè)信息的一種程序。World wide Web Wanderer其實(shí)并不能算是搜索引擎,它只是世界上第一個(gè)機(jī)器人程序,由美國(guó)麻省理工學(xué)院(MIT)的馬泰·格雷(Matthew Gray)于1993年6月開(kāi)發(fā)。它通過(guò)網(wǎng)絡(luò)自動(dòng)遍歷方法來(lái)統(tǒng)計(jì)Internet上的服務(wù)器數(shù)量,所以可以追蹤Internet的發(fā)展規(guī)模,直至后來(lái)還可以專(zhuān)門(mén)用于獲取Internet上網(wǎng)頁(yè)的URL信息,所有的信息都被存入數(shù)據(jù)庫(kù),名字叫Wandex。由于對(duì)于性能考慮的不是太多,這個(gè)機(jī)器人程序可以在一天內(nèi)連續(xù)的對(duì)同一網(wǎng)頁(yè)進(jìn)行多達(dá)幾百次的遍歷,因而會(huì)造成被遍歷系統(tǒng)性能的嚴(yán)重下降。雖然馬泰·格雷很快修復(fù)了這一問(wèn)題,然而這次事故卻給人們帶來(lái)一個(gè)疑問(wèn):我的站點(diǎn)如果被別的機(jī)器人程序遍歷的話,是不是會(huì)引起性能的下降?直到今天,搜索引擎在機(jī)器人設(shè)計(jì)方面仍然存在著這樣的挑戰(zhàn)。
今天依然可以看到MIT網(wǎng)站上有關(guān)的網(wǎng)絡(luò)統(tǒng)計(jì)歷史數(shù)據(jù),網(wǎng)址為:http://www.mit.edu/people/mkgray/net,如圖3. 2所示:
圖3. 2 MIT網(wǎng)站上關(guān)于World wide Web Wanderer的信息(截取于2010-3)
3)Veronica和Jughead
之所以把這兩個(gè)搜索引擎放在一起,是因?yàn)樗鼈兊墓δ芎芟嗨?#xff0c;出現(xiàn)的時(shí)間也很接近。Veronica是由美國(guó)內(nèi)華達(dá)大學(xué)(University of Nevada)的系統(tǒng)計(jì)算服務(wù)小組(System Computing Services Group)于1991年開(kāi)發(fā)。和Archie不同的地方在于,Veronica只對(duì)存在于Gopher上的普通文本文件進(jìn)行查詢。隨后出現(xiàn)的Jughead也具有類(lèi)似的作用,據(jù)稱這個(gè)名稱來(lái)自于“Jonzy's Universal Gopher Hierarchy Excavation and Display(Jonzy的統(tǒng)一Gopher層次性挖掘和顯示工具)”。有趣的是,后人常常把Archie稱之為搜索引擎之父,而把Veronica稱之為搜索引擎之母。
不過(guò),這些工具都已經(jīng)不復(fù)存在,然而人們依然可以在Internet上看到一些遺留下來(lái)的服務(wù),如圖3. 3所示:
圖3. 3 某站點(diǎn)展示的幾個(gè)大學(xué)所提供的Veronica服務(wù)(截取于2007-9)
4)ALIWEB
ALIWEB是個(gè)劃時(shí)代的搜索引擎,借助它人們首次可以對(duì)WWW網(wǎng)頁(yè)進(jìn)行全文查詢。它是由馬汀·考斯特(Martijn Koster)于1993年10月開(kāi)發(fā),名稱含義是“類(lèi)似于Archie的Web索引(Archie-Like Indexing of the Web)”,它相當(dāng)于Archie的Web版本。但是,ALIWEB沒(méi)有自己的機(jī)器人程序,相反它卻要求愿意被ALIWEB收錄的網(wǎng)站網(wǎng)管主動(dòng)提交自己網(wǎng)站的網(wǎng)頁(yè)索引信息,這樣做的好處在于克服了機(jī)器人程序帶來(lái)的帶寬消耗,同時(shí)網(wǎng)管可以自主的描述網(wǎng)頁(yè)內(nèi)容。但缺點(diǎn)也是顯而易見(jiàn)的,很多網(wǎng)管并不知道如何來(lái)做這個(gè)事情,甚至都不知道是否需要這樣做,所以ALIWEB的網(wǎng)頁(yè)數(shù)據(jù)庫(kù)規(guī)模一直不大。ALIWEB的網(wǎng)址為:http://www.aliweb.com,今天依然還在運(yùn)行,主頁(yè)界面如圖3. 4所示:
圖3. 4 ALIWEB搜索引擎的主頁(yè)界面(截取于2010-3)
馬汀·考斯特并沒(méi)有停止對(duì)搜索引擎技術(shù)的研究,他后來(lái)還成為了機(jī)器人拒絕協(xié)議(Robots Exclusion)標(biāo)準(zhǔn)的主要設(shè)計(jì)者。通過(guò)機(jī)器人拒絕協(xié)議,網(wǎng)站可以告知搜索引擎哪些信息是可以被搜索引擎機(jī)器人程序所遍歷的,而哪些是不可以遍歷的。借助這個(gè)協(xié)議,人們就可以更好的在信息公開(kāi)性和保密性之間取得一種平衡。這個(gè)協(xié)議現(xiàn)在已經(jīng)成為現(xiàn)代搜索引擎的標(biāo)準(zhǔn)功能之一。
馬汀·考斯特的個(gè)人主頁(yè)網(wǎng)址為:http://www.greenhills.co.uk/mak/mak.html,如圖3. 5所示:
圖3. 5 馬汀?考斯特的個(gè)人主頁(yè)(截取于2010-3)
1.1.1.2 基于爬蟲(chóng)的搜索引擎
爬蟲(chóng)(Crawler)是從搜索引擎機(jī)器人程序發(fā)展而來(lái)。雖然兩者在功能上很相似,但是爬蟲(chóng)程序卻可以通過(guò)分析遍歷來(lái)的網(wǎng)頁(yè)中含有的網(wǎng)頁(yè)鏈接信息,自動(dòng)獲取下一步需要遍歷的網(wǎng)頁(yè),這個(gè)過(guò)程可以自動(dòng)的持續(xù)進(jìn)行下去。爬蟲(chóng)是個(gè)非常形象的稱呼,也有人稱之為蜘蛛(Spider),它們都是一個(gè)意思,真像Internet上的一個(gè)蜘蛛爬蟲(chóng),自由的跑來(lái)跑去,抓取所能獲得的各種網(wǎng)頁(yè)信息。
爬蟲(chóng)程序要想能夠抓取到所有的Internet網(wǎng)頁(yè)信息,需要有個(gè)假設(shè)前提,那就是Internet上的所有網(wǎng)頁(yè)都相互鏈接。事實(shí)上,這并不可能。不過(guò),探討這個(gè)問(wèn)題意義不是很大,尤其在Internet上網(wǎng)頁(yè)數(shù)量規(guī)模已達(dá)萬(wàn)億級(jí)的今天。人們更關(guān)心能否快速找到一些最想要的信息資源而非全部的信息資源。
1994年在搜索引擎發(fā)展歷史上發(fā)生了很多具有里程碑意義的事件,那一年,各種基于爬蟲(chóng)的搜索引擎都紛紛出現(xiàn),徹底的改變了Internet的信息環(huán)境狀態(tài)。
1)JumpStation、The World Wide Web Worm和RBSE
到了1993年底,很多基于爬蟲(chóng)的搜索引擎開(kāi)始出現(xiàn),其中比較著名的有三個(gè):一是英國(guó)蘇格蘭大學(xué)(Scotland University)開(kāi)發(fā)的JumpStation,它可以自動(dòng)收集網(wǎng)頁(yè)的標(biāo)題等信息,但是隨著網(wǎng)頁(yè)數(shù)量的增加,該搜索引擎卻不能很好的適應(yīng)這種變化,性能變得很差,最終停止了運(yùn)行;二是美國(guó)科羅拉多大學(xué)(University of Colorado)的奧利弗·麥克布萊(Oliver McBryan)開(kāi)發(fā)的“The World Wide Web Worm”,字面意思是萬(wàn)維網(wǎng)蠕蟲(chóng),它可以自動(dòng)收集網(wǎng)頁(yè)的標(biāo)題和URL等信息,而且它也是第一個(gè)解析超文本信息的搜索引擎;三是美國(guó)航空航天局(NASA)開(kāi)發(fā)的RBSE,意思是基于存儲(chǔ)庫(kù)的軟件技術(shù)設(shè)備(The Repository-Based Software Engineering)。它是第一個(gè)能夠索引Web網(wǎng)頁(yè)正文的搜索引擎,也是第一個(gè)能夠在搜索結(jié)果排列中引入查詢?cè)~語(yǔ)相關(guān)度概念的搜索引擎。這和前兩種搜索引擎不同,它不再簡(jiǎn)單的只根據(jù)找到匹配網(wǎng)頁(yè)信息的先后次序來(lái)排列搜索結(jié)果,而是利用網(wǎng)頁(yè)鏈接分析重新設(shè)計(jì)新的結(jié)果網(wǎng)頁(yè)排序算法,因此可以把用戶最想要的相關(guān)網(wǎng)頁(yè)放置在搜索引擎結(jié)果的最前面。
現(xiàn)在這些搜索引擎都早已停止了服務(wù),但是后來(lái)的搜索引擎基本上都采用了基于爬蟲(chóng)的網(wǎng)頁(yè)信息獲取方法。
2)Excite
Excite是一個(gè)非常有代表性的搜索引擎,它是由美國(guó)斯坦福大學(xué)(Stanford Unviersity)6名本科生在1993年2月研發(fā)的一個(gè)項(xiàng)目Architext發(fā)展而來(lái)。最初這些學(xué)生認(rèn)為可以通過(guò)對(duì)網(wǎng)頁(yè)中的詞語(yǔ)關(guān)系進(jìn)行統(tǒng)計(jì)分析來(lái)提高查詢的效果,因此他們?cè)谝腼L(fēng)險(xiǎn)投資后就研發(fā)了Architext系統(tǒng)。到了1993年中期,他們發(fā)布了一個(gè)供網(wǎng)絡(luò)管理員可以在自己網(wǎng)站上使用的查詢軟件版本,稱之為“Excite for Web Servers”。到1999年,Excite被一個(gè)名叫@Home的寬帶運(yùn)營(yíng)商以65億美元收購(gòu),因此搜索引擎也改名為Excite@Home。從此,Excite@Home開(kāi)始側(cè)重于寬帶市場(chǎng),在搜索引擎方面也就沒(méi)有更新的技術(shù)出現(xiàn)。好景不長(zhǎng),Excite@Home于2001年10月破產(chǎn),2002年5月被InfoSpace公司以1000萬(wàn)美元收購(gòu)。今天,Excite仍然還在運(yùn)營(yíng),不過(guò)它已經(jīng)改用Dogpile來(lái)提供元搜索引擎服務(wù)。Excite主頁(yè)如圖3. 6所示:
圖3. 6 Excite搜索引擎的主頁(yè)界面(截取于2010-3)
Excite搜索引擎有兩點(diǎn)非常引人注目:一是在商業(yè)上,它最早提出“免費(fèi)讓人搜索,用廣告收入來(lái)補(bǔ)貼”的搜索引擎盈利模式,這在當(dāng)時(shí)是比較新的理念;二是在技術(shù)上,Excite一直以概念搜索聞名。所謂概念搜索,是指搜索引擎可以理解用戶查詢?cè)~語(yǔ)的語(yǔ)義含義,并進(jìn)行自動(dòng)語(yǔ)義擴(kuò)檢[2]來(lái)推薦更多的查詢內(nèi)容。當(dāng)然,受限于技術(shù)發(fā)展,這種概念檢索的功能并非十分強(qiáng)大。圖3. 7展示了在Excite中查詢“apple”的界面,在窗口的右邊顯示了一組擴(kuò)展的查詢?cè)~語(yǔ),如“Apple Store(蘋(píng)果用品商店)”,甚至還有“Banana”等水果類(lèi)詞語(yǔ)。
圖3. 7 Excite所提供的概念檢索(截取于2010-3)
3)WebCrawler
WebCrawler是美國(guó)華盛頓大學(xué)(University of Washington)計(jì)算機(jī)科學(xué)系的學(xué)生布賴恩·平克頓(Brian Pinkerton)于1994年4月20日創(chuàng)建,雖然它最早只是從一個(gè)非正式學(xué)術(shù)研討會(huì)上的小型項(xiàng)目發(fā)展而來(lái),所以最初亮相時(shí)只包含來(lái)自6000個(gè)服務(wù)器的網(wǎng)頁(yè)內(nèi)容,但它卻是世界上第一個(gè)可以對(duì)遍歷網(wǎng)頁(yè)的全部文字內(nèi)容進(jìn)行索引的搜索引擎。在此之前,搜索引擎只能提供網(wǎng)頁(yè)URL和網(wǎng)頁(yè)摘要來(lái)供用戶查看查詢結(jié)果,其中網(wǎng)頁(yè)摘要一般來(lái)自人工評(píng)論或者是由程序自動(dòng)抽取網(wǎng)頁(yè)正文的前若干個(gè)詞語(yǔ)來(lái)組成,效果可想而知。所以如此強(qiáng)大的全文索引能力引發(fā)了巨大的訪問(wèn)流量,據(jù)稱當(dāng)時(shí)的華盛頓大學(xué)校園網(wǎng)絡(luò)幾乎因此崩潰。
1995年,美國(guó)在線收購(gòu)了WebCrawler。1997年,Excite又把WebCrawler買(mǎi)走,此時(shí)的美國(guó)在線就開(kāi)始使用Excite作為它自己搜索項(xiàng)目NetFind的技術(shù)提供商。隨著Excite的風(fēng)光不再,今天的WebCrawler已改用Dogpile來(lái)提供元搜索引擎服務(wù)。網(wǎng)址為:http://www.webcrawler.com,主頁(yè)如圖3. 8所示:
圖3. 8 WebCrawler搜索引擎的主頁(yè)界面(截取于2010-3)
4)Lycos
Lycos的名字起得非常好,它來(lái)自于拉丁文單詞“Lycosidae(狼蛛)”,狼蛛和一般蜘蛛最大的區(qū)別就是不結(jié)網(wǎng),而是直接追隨獵物捕食。這個(gè)形象有力的名稱確實(shí)表達(dá)了Lycos遍歷網(wǎng)頁(yè)的強(qiáng)大能力,事實(shí)上,它也是搜索引擎歷史上的代表作之一。它由美國(guó)卡耐基梅隆大學(xué)(Carnegie Mellon University)的博士生邁克爾·墨登(Michale Mauldin)于1994年7月在匹茲堡創(chuàng)建,和其他美國(guó)搜索引擎不太一樣的地方在于,它是早期唯一誕生于美國(guó)東部的搜索引擎,而其它的搜索引擎則都在西部的硅谷創(chuàng)建。
從技術(shù)上看,Lycos能夠提供網(wǎng)頁(yè)結(jié)果排序、查詢?cè)~語(yǔ)的前綴匹配、鄰近位置詞語(yǔ)查詢和自動(dòng)網(wǎng)頁(yè)摘要等一系列功能。在1994年10月,用戶通過(guò)當(dāng)時(shí)最為流行的航海者瀏覽器查詢“surf”[3]相關(guān)結(jié)果時(shí),Lycos是排名第一的搜索引擎結(jié)果。當(dāng)然,它的最大特點(diǎn)仍不是這些。正如Lycos名字暗示的那樣,Lycos遍歷網(wǎng)頁(yè)的能力非常強(qiáng),這才是它的最大特點(diǎn),而這一點(diǎn)在Internet剛開(kāi)始發(fā)展的年代時(shí)無(wú)疑非常吸引人。據(jù)報(bào)道,1994年7月20日,Lycos就可以遍歷54000篇網(wǎng)頁(yè),到了1994年8月則達(dá)到39.4萬(wàn)篇,1995年1月達(dá)到150萬(wàn)篇,1996年11月更達(dá)到6千萬(wàn)篇網(wǎng)頁(yè),超過(guò)了當(dāng)時(shí)任何一款搜索引擎所能收集的網(wǎng)頁(yè)量。
但是,客觀的講,Lycos的搜索引擎技術(shù)并不是最好。不過(guò),Lycos在商業(yè)上也做的不錯(cuò),如很早就開(kāi)始投資做社區(qū)網(wǎng)站,網(wǎng)絡(luò)廣告也經(jīng)營(yíng)的不錯(cuò),這些成功掩飾了Lycos技術(shù)的不足。Lycos后來(lái)似乎意識(shí)到了這一點(diǎn),它收購(gòu)了一家廣受好評(píng)的搜索引擎Hotbot,而Hotbot后臺(tái)使用的是Inktomi搜索引擎的技術(shù),Lycos希望通過(guò)此次收購(gòu)來(lái)提升自己的技術(shù)水平。但是,這也使得Lycos一直需要維持著兩個(gè)搜索引擎的技術(shù)平臺(tái)??赡苁荌nktomi的技術(shù)確實(shí)比較先進(jìn),直到最后它全面改用Inktomi的搜索技術(shù)。不過(guò),由于受到Y(jié)ahoo!和Google的競(jìng)爭(zhēng),Lycos逐漸衰落,最終在1999年4月停止了服務(wù),改由Fast搜索引擎來(lái)提供服務(wù)。網(wǎng)址為:http://www.lycos.com,主頁(yè)如圖3. 9所示:
圖3. 9 Lycos搜索引擎的主頁(yè)界面(截取于2010-3)
5)Infoseek
Infoseek也誕生在那個(gè)奇妙的1994年。Infoseek的起點(diǎn)比較高,因?yàn)樗褂玫乃阉骷夹g(shù)來(lái)自于美國(guó)馬薩諸塞大學(xué)(University of Massachusetts),而在全美高校中,馬薩諸塞大學(xué)的信息檢索技術(shù)可以名數(shù)一流。但是設(shè)計(jì)完成之后,設(shè)計(jì)師還是發(fā)現(xiàn)無(wú)法適應(yīng)如此多的Internet網(wǎng)頁(yè)處理要求,因此聘請(qǐng)一位名叫威廉·張(William I. Chang)的中國(guó)臺(tái)灣設(shè)計(jì)師進(jìn)行了改進(jìn),改進(jìn)后的技術(shù)平臺(tái)被稱為Ultraseek。該平臺(tái)較前者而言,不僅在處理速度上,而且在查詢結(jié)果的相關(guān)度方面,都比較優(yōu)秀。事實(shí)上,后來(lái)的Infoseek也確實(shí)因?yàn)橄嚓P(guān)度算法好而聞名。同時(shí),它還允許網(wǎng)站管理者提交自己的網(wǎng)頁(yè)來(lái)進(jìn)行實(shí)時(shí)索引,該項(xiàng)功能非常吸引人,不過(guò),Infoseek也同時(shí)成了搜索造假者[4](Search Spammer)的天堂,很多網(wǎng)站管理者利用此項(xiàng)功能來(lái)惡意提升自己網(wǎng)站的搜索結(jié)果排名和被搜索的次數(shù)。
不過(guò),這些技術(shù)創(chuàng)新并沒(méi)有真正的帶來(lái)巨大進(jìn)步。但是,Infoseek不斷增強(qiáng)用戶界面的友好性,同時(shí)提供大量附加服務(wù)以吸引用戶使用。最為重要的是,1995年12月,Infoseek連說(shuō)服帶花錢(qián),讓網(wǎng)景(Netscape)公司不再使用Yahoo!作為默認(rèn)的搜索服務(wù)提供商,也就是說(shuō),當(dāng)用戶點(diǎn)擊航海者瀏覽器的搜索按鈕時(shí),默認(rèn)彈出Infoseek的搜索引擎。但是,隨著1999年被迪斯尼(Disney)公司收購(gòu),Infoseek最終淪落為Go.com網(wǎng)站做娛樂(lè)方面的索引和搜索服務(wù),從此在技術(shù)的革新越來(lái)越少。在2001年2月,Infoseek終于停止了自己的搜索引擎,改用Overture的搜索服務(wù)。有趣的是,百度創(chuàng)始人李彥宏也曾經(jīng)在Infoseek從事過(guò)技術(shù)工作,但于1999年回國(guó)創(chuàng)立了百度。更為有趣的是,那個(gè)當(dāng)時(shí)改進(jìn)Infoseek 的工程師William I. Chang后來(lái)認(rèn)識(shí)了李彥宏,并于2006年12月6日加盟百度,成為百度首席科學(xué)家。Infoseek的網(wǎng)址為:http://go.com,主頁(yè)如圖3. 10所示:
圖3. 10 Infoseek搜索引擎的主頁(yè)界面(截取于2010-3)
6)AltaVista
可以毫不夸張的說(shuō),憑借大量的創(chuàng)新功能,AltaVista就是早期搜索引擎中的“Google”,它不論是在軟件功能上還是硬件條件上都達(dá)到了那個(gè)時(shí)代的頂峰,在很多方面對(duì)現(xiàn)代搜索引擎都產(chǎn)生了深刻的影響。
AltaVista是由美國(guó)數(shù)字設(shè)備公司(Digital Equipment Corporation,DEC)研發(fā),于1995年12月面世。從硬件條件來(lái)看,DEC公司本身就是生產(chǎn)計(jì)算機(jī)設(shè)備的公司,憑借DEC強(qiáng)大的Alpha芯片運(yùn)算能力,AltaVista可以運(yùn)行在當(dāng)時(shí)最為先進(jìn)的計(jì)算機(jī)上,因此運(yùn)行速度非常快。從軟件功能上看,AltaVista搜索引擎的功能也非常多,如AltaVista第一個(gè)允許用戶使用句子來(lái)進(jìn)行自然語(yǔ)言查詢,第一個(gè)支持和實(shí)現(xiàn)布爾查詢,能對(duì)不同格式的文檔、多媒體信息甚至多國(guó)語(yǔ)言的網(wǎng)頁(yè)進(jìn)行查詢。同時(shí),AltaVista還是第一個(gè)允許用戶自主增刪網(wǎng)頁(yè)索引信息的搜索引擎,更新的信息最快可以在24小時(shí)內(nèi)上線。另外,AltaVista還能查詢有鏈接指向某個(gè)特定網(wǎng)頁(yè)的所有其他網(wǎng)頁(yè),該功能稱為鏈入檢查(Inbound Link Check),這個(gè)功能有助于網(wǎng)站管理者了解自己站點(diǎn)受人關(guān)注的程度,顯然,這種被其他網(wǎng)頁(yè)建立的鏈接越多,自己網(wǎng)頁(yè)的受歡迎程度相對(duì)也就越高。在界面上,AltaVista還提供了大量的易用幫助提示信息以方便用戶使用。
1997年,AltaVista發(fā)布了一個(gè)圖形演示系統(tǒng)LiveTopics,它采用一個(gè)圖形化的界面來(lái)整理搜索引擎的返回結(jié)果,從而方便用戶找到所需內(nèi)容,界面如圖3. 11所示:
圖3. 11 LiveTopics系統(tǒng)的界面
這些技術(shù)都令人刮目相看。然而,由于管理混亂和競(jìng)爭(zhēng)者的不斷增多,AltaVista逐漸在進(jìn)入21世紀(jì)以后走了下坡路。2003年2月18日,Overture收購(gòu)了AltaVista,隨后Yahoo!又收購(gòu)了Overture,AltaVista因此成為了Yahoo!搜索系統(tǒng)的實(shí)驗(yàn)平臺(tái),也為Yahoo!推出自己的搜索引擎打下了必要的技術(shù)基礎(chǔ)。AltaVista的網(wǎng)址為:http://www.altavista.com,主頁(yè)如圖3. 12所示:
圖3. 12 AltaVista搜索引擎的主頁(yè)界面(截取于2010-3)
7)Inktomi
Inktomi的正確念法是“Ink-to-me”,它來(lái)自于美洲印第安人傳說(shuō)中的一個(gè)蜘蛛魔法師,據(jù)說(shuō)給人類(lèi)帶給了文化和知識(shí)。Inktomi是由美國(guó)加州伯克利分校(University of California Berkeley)計(jì)算機(jī)教授埃里克·布魯爾(Eric Brewer)和他的博士生保羅·高瑟(Paul Gauthier)于1996年1月創(chuàng)建。他們是研究并行處理的專(zhuān)家,也希望以Inktomi來(lái)證明他們所提出的并行算法是有效的。但是,此時(shí)的Internet搜索引擎已經(jīng)群雄并起,要想和它們正面交鋒,難度很大。所以,Inktomi創(chuàng)建者決定只做技術(shù)提供商,并在1996年5月20日開(kāi)始為Hotbot提供服務(wù)。事實(shí)證明,Hotbot很受歡迎,它聲稱每天能遍歷1千萬(wàn)篇以上的網(wǎng)頁(yè),同時(shí)還大量運(yùn)用cookie來(lái)儲(chǔ)存用戶的設(shè)置信息以提供個(gè)性化的查詢服務(wù)。在商業(yè)運(yùn)行模式上,Inktomi還提出了很多直到今天依然還在沿用的概念,如“Search Submit(付費(fèi)提交)”、“Index Connect(付費(fèi)索引)”、“Web Portal Solution(Web門(mén)戶解決方案)”和“Enterprise Search(企業(yè)搜索)”等。到了1999年,Inktomi 達(dá)到了鼎盛,成為了諸如Yahoo!和微軟MSN搜索引擎在內(nèi)近一百多個(gè)大網(wǎng)站的搜索后臺(tái)技術(shù)提供商。
隨后,Hotbot被Lycos收購(gòu),Yahoo!也轉(zhuǎn)用Google作為搜索技術(shù)提供商,這對(duì)Inktomi是個(gè)巨大打擊,不斷流失的客戶和影響力開(kāi)始使得Inktomi走向了下坡路。Inktomi于2002年12月23日還是被當(dāng)年拋棄它的Yahoo!以低價(jià)收購(gòu)。在此之前,Yahoo!一直在使用Altavista作為后臺(tái)技術(shù)提供商。Inktomi網(wǎng)址為:http://www.inktomi.com,主頁(yè)如圖3. 13所示:
圖3. 13 Inktomi搜索引擎的主頁(yè)界面(截取于2007-9)
Inktomi的最終失敗從一個(gè)方面反映了搜索引擎廠商必須要正視的問(wèn)題,那就是究竟應(yīng)該直接面對(duì)用戶樹(shù)立品牌還是甘當(dāng)無(wú)名幕后英雄。事實(shí)證明,要想取得市場(chǎng)的成功,搜索引擎必須及時(shí)轉(zhuǎn)型,盡快走到臺(tái)前。后來(lái)的Google和百度則采取了正確的轉(zhuǎn)型路線,成為了現(xiàn)代搜索引擎的巨頭之一。
1.1.1.3 基于分類(lèi)目錄的搜索引擎
前文所述的搜索引擎多是采用爬蟲(chóng)方式來(lái)獲取網(wǎng)頁(yè)信息,同時(shí)在查詢界面上多是采用輸入查詢?cè)~語(yǔ)的方式來(lái)直接獲取網(wǎng)頁(yè)結(jié)果,通常我們稱這種方式叫全文查詢(Full-text Search),因?yàn)榫W(wǎng)頁(yè)只要在任何位置上含有用戶的查詢?cè)~語(yǔ)就可以被命中。與此相對(duì)的,還有另外一種有效的查詢界面設(shè)計(jì)方法,那就是Web目錄(Web directory),也稱為“分類(lèi)目錄”或者“網(wǎng)頁(yè)目錄”。它采用層次性的目錄組織體系,將所收集的網(wǎng)頁(yè)分門(mén)別類(lèi)的歸入不同的子目錄中,用戶按照目錄提示可以逐層定位找到自己所需的內(nèi)容。采取此類(lèi)方法實(shí)現(xiàn)的搜索引擎和信息查詢站點(diǎn)也有很多。
1)Virtual Library
發(fā)明WWW訪問(wèn)方式的蒂姆·伯納斯·李(Tim Berners Lee)就于1991年利用WWW方式組織過(guò)一個(gè)Web目錄站點(diǎn),稱為虛擬圖書(shū)館(Virtual Library),于是它被看成是世界上最早的Web目錄站點(diǎn)。不像一般的商業(yè)站點(diǎn),這個(gè)站點(diǎn)是由一群志愿者維護(hù)的,志愿者分別根據(jù)自己所了解的學(xué)科知識(shí)領(lǐng)域給出相應(yīng)目錄下的推薦網(wǎng)頁(yè)結(jié)果,所以體系不大,但是收錄的網(wǎng)頁(yè)質(zhì)量卻較高。網(wǎng)址為:http://vlib.org.uk,主頁(yè)如圖3. 14所示:
圖3. 14 蒂姆?伯納斯?李創(chuàng)立的虛擬圖書(shū)館(Virtual Library)(截取于2010-3)
2)Galaxy
1994年1月,Galaxy在美國(guó)得克薩斯大學(xué)(University of Texas)創(chuàng)建,最早的名稱是EINet Galaxy。在創(chuàng)建之初,Galaxy主要面向電子商務(wù)的大型目錄指南服務(wù)。1995年4月,Galaxy由一個(gè)研究項(xiàng)目轉(zhuǎn)變?yōu)橐粋€(gè)商業(yè)項(xiàng)目,1997年被網(wǎng)絡(luò)安全公司CyberGuard收購(gòu),1998年9月,CyberGuard又把Galaxy買(mǎi)給美國(guó)健康網(wǎng)(AHN.com),1999年5月Fox/News公司介入Galaxy。直到2000年5月,幾經(jīng)變故的Galaxy終于成為一個(gè)獨(dú)立的站點(diǎn),由TradeWave公司負(fù)責(zé)。
Galaxy是一個(gè)著名的Web目錄搜索引擎,這個(gè)目錄體系首先按照主題分類(lèi),各主題目錄再依字母順序排列,大主題下分有小主題,因此是個(gè)較為綜合全面的Web目錄體系。同時(shí),在內(nèi)容上包含了較多的學(xué)術(shù)性和專(zhuān)業(yè)性知識(shí),內(nèi)容非常豐富。令人注意的是,Galaxy除了可以提供Web網(wǎng)頁(yè)查詢功能外,還能提供當(dāng)時(shí)還在流行的Telnet和Gopher環(huán)境下的信息查詢功能。其實(shí)在1994年,當(dāng)時(shí)Internet上的Web網(wǎng)絡(luò)還很小,小到似乎沒(méi)有必要去建立Web目錄,而事實(shí)上,Galaxy創(chuàng)建的一個(gè)主要原因也就是提供一種Gopher信息的查詢功能,而Gopher采用的層次型菜單結(jié)構(gòu)非常需要同時(shí)也非常適應(yīng)Galaxy所提供的目錄體系。它的網(wǎng)址為:http://www.galaxy.com,主頁(yè)如圖3. 15所示:
圖3. 15 Galaxy搜索引擎的主頁(yè)界面(截取于2010-3)
3)Yahoo!(雅虎)
Yahoo!和Google、Bing[5]已經(jīng)成為當(dāng)代全球三大著名搜索引擎。事實(shí)上,它也是這三者當(dāng)中資格最老的一個(gè)。
90年代初,美國(guó)斯坦福大學(xué)(Stanford Unviersity)電機(jī)研究所攻讀電機(jī)工程博士學(xué)位的美籍華人楊致遠(yuǎn)(Jerry Yang)和大衛(wèi)·費(fèi)羅(David Filo)和其他學(xué)生一樣,開(kāi)始喜歡上剛出現(xiàn)的Internet。不過(guò),他們卻有一個(gè)特殊的愛(ài)好,那就是他們經(jīng)常將自己收集到的一些較好的網(wǎng)頁(yè)內(nèi)容鏈接在自己的個(gè)人網(wǎng)頁(yè)上。漸漸的,他們自己的網(wǎng)頁(yè)在斯坦福大學(xué)內(nèi)部開(kāi)始小有名氣,人們稱呼他們的網(wǎng)頁(yè)為“杰里和大衛(wèi)的萬(wàn)維網(wǎng)向?qū)?#xff08;Jerry&David's Guide to the World Wide Web)”。根據(jù)這些已有的經(jīng)驗(yàn)和前期的基礎(chǔ),楊致遠(yuǎn)和大衛(wèi)·費(fèi)羅于1994年4月使用學(xué)校的工作站創(chuàng)建了一個(gè)網(wǎng)頁(yè)目錄查詢系統(tǒng),稱之為Yahoo!。剛開(kāi)始,這個(gè)網(wǎng)頁(yè)目錄就已經(jīng)收集了超過(guò)1000不同站點(diǎn)的網(wǎng)頁(yè)信息。較基于爬蟲(chóng)的早期搜索引擎而言, Yahoo!所收集的網(wǎng)頁(yè)內(nèi)容能夠含有人工編撰的說(shuō)明信息,可以極大方便用戶的使用,而基于爬蟲(chóng)的搜索引擎只能通過(guò)采集網(wǎng)頁(yè)URL和標(biāo)題之類(lèi)的簡(jiǎn)單內(nèi)容來(lái)作為網(wǎng)頁(yè)內(nèi)容的提示信息,顯然不論是在網(wǎng)頁(yè)體系的組織上,還是在網(wǎng)頁(yè)內(nèi)容的說(shuō)明上,都難以做到和Yahoo!同樣的效果。
關(guān)于Yahoo!這個(gè)名稱的來(lái)歷也是眾說(shuō)紛紜,很多人認(rèn)為它是“另一個(gè)層次性的民間先知(Yet Another Hierarchical Officious Oracle)”的縮寫(xiě)詞,這可能借鑒于UNIX系統(tǒng)中一個(gè)表示網(wǎng)絡(luò)查詢技術(shù)的縮略語(yǔ)YACC(Yet another compiler compiler,另一個(gè)編譯器代碼生成器)。但是,根據(jù)楊致遠(yuǎn)等人的說(shuō)法,Yahoo的“Ya”來(lái)自于楊致遠(yuǎn)的姓,他們?cè)庙f氏詞典設(shè)想過(guò)Yauld、Yammer和Yardage等一系列可能的名字。之所以選中Yahoo,是因?yàn)樵凇陡窭鹩斡洝分衁ahoo是一種粗俗和不懂世故的人形動(dòng)物,它具有人的種種惡習(xí),他們反其義而用之,認(rèn)為在強(qiáng)調(diào)平等權(quán)利的互聯(lián)網(wǎng)上大家都是鄉(xiāng)巴佬,為了增加褒義色彩,又后面加上一個(gè)感嘆號(hào),于是就有了Yahoo!。
事實(shí)上,Yahoo!的成功離不開(kāi)它的幸運(yùn)。當(dāng)時(shí)有一家著名Web瀏覽器公司網(wǎng)景(Netscape)生產(chǎn)一種稱為航海者(Navigator)的Web瀏覽器軟件,該軟件非常流行,人們都在使用它去訪問(wèn)Web網(wǎng)絡(luò)。為了增強(qiáng)網(wǎng)絡(luò)信息查詢的快捷性,該瀏覽器的創(chuàng)始人馬克·安德森(Marc Andreessen)看中了Yahoo!,并且在1995年1月,他把航海者瀏覽器上一個(gè)最為重要的網(wǎng)絡(luò)查詢按鈕默認(rèn)指向了Yahoo!目錄??梢哉f(shuō),借助航海者瀏覽器的平臺(tái),Yahoo!很快在Internet上樹(shù)立了名聲。1995年4月,Yahoo!還吸收到了曾經(jīng)給Apple、Oracle和Cisco投資過(guò)的Sequoia公司接近200萬(wàn)美元的投資。此時(shí),Yahoo!已經(jīng)成為Internet上的一個(gè)重要的門(mén)戶站點(diǎn)。
然而,通過(guò)人工組織方式獲取的Web目錄結(jié)構(gòu)不可能適應(yīng)網(wǎng)絡(luò)快速增長(zhǎng)的發(fā)展要求,因此,Yahoo!先后使用了諸如Altavista和Inktomi等搜索引擎來(lái)為自己提供基于關(guān)鍵詞的全文檢索服務(wù)。2002年10月9日,Yahoo開(kāi)始不再使用Web目錄作為主要搜索工具,而是使用另外一家后起之秀Google來(lái)為自己提供關(guān)鍵詞查詢服務(wù),并成為真正的全文搜索引擎。正如當(dāng)年Yahoo!借助航海者成功一樣,Google最終也借助Yahoo!成名,并敢于和Yahoo!抗衡。此時(shí)的Yahoo!只能通過(guò)收購(gòu)的方式來(lái)獲得較快的發(fā)展,2002年12月23日收購(gòu)inktomi搜索引擎,2003年7月14日收購(gòu)包括Fast和Altavista在內(nèi)的Overture公司。直到2004年,雅虎中國(guó)在中國(guó)內(nèi)地終于推出了自己獨(dú)立研發(fā)的搜索引擎“一搜”。2004,雅虎中國(guó)推出獨(dú)立的搜索門(mén)戶網(wǎng)站一搜網(wǎng),“一搜天下小”的廣告語(yǔ)讓人側(cè)目。今天已經(jīng)改名為雅虎全能搜,網(wǎng)址為:http://www.yahoo.cn,主頁(yè)如圖3. 16所示:
圖3. 16 雅虎全能搜的主頁(yè)界面(截取于2010-3)
不過(guò),Yahoo!的Web目錄仍然還是一個(gè)重要的網(wǎng)絡(luò)信息查詢工具,它的設(shè)計(jì)結(jié)構(gòu)經(jīng)過(guò)不斷的調(diào)整,已經(jīng)非常成熟和易于使用。Yahoo!的Web目錄網(wǎng)址為:http://dir.yahoo.com,網(wǎng)頁(yè)如圖3. 17所示:
圖3. 17 Yahoo!的Web目錄主頁(yè)界面(截取于2010-3)
當(dāng)然,這個(gè)Web目錄也漸漸的融入了更多的特點(diǎn)。尤其是隨著名聲的增大,Yahoo!早已開(kāi)始對(duì)收錄的商業(yè)站點(diǎn)收費(fèi),2007年的收錄報(bào)價(jià)是每年299美元。但是,對(duì)于那些真正著名的站點(diǎn)而言,Yahoo!還是采用免費(fèi)收錄的方法。
4)ODP(開(kāi)放目錄)
ODP是Open Directory Project(開(kāi)放目錄項(xiàng)目)的簡(jiǎn)稱,是由瑞奇·斯克倫塔(Rich Skrenta)于1998年和合伙人一起創(chuàng)辦的。這個(gè)目錄體系結(jié)構(gòu)不僅可以提供一種Web網(wǎng)頁(yè)目錄的查詢方法,而且這個(gè)目錄體系的內(nèi)容還是由全球各地的志愿者集體編撰而成,至今已經(jīng)成為全球最大的Web目錄,因此那些本來(lái)需要等待被Yahoo!目錄收錄的網(wǎng)站現(xiàn)在終于找到了新的地方。更為重要的是,人們還可以免費(fèi)的下載整個(gè)目錄體系,以供自己的科學(xué)研究。1998年11月,網(wǎng)景(Netscape)公司收購(gòu)了ODP。隨著網(wǎng)景公司自己在同年同月被美國(guó)在線(AOL)以45億美元收購(gòu),ODP后來(lái)歸入了AOL的名下。ODP的網(wǎng)址為:http://www.dmoz.org,主頁(yè)如圖3. 18所示:
圖3. 18 ODP的Web目錄主頁(yè)界面(截取于2010-3)
5)專(zhuān)業(yè)的Web目錄站點(diǎn)
如果讀者細(xì)心,你就會(huì)發(fā)現(xiàn)上述這些Web網(wǎng)頁(yè)目錄的結(jié)構(gòu)有時(shí)科學(xué)性并不強(qiáng),如圖3. 19顯示了部分雅虎中文分類(lèi)目錄的內(nèi)容:
圖3. 19 部分雅虎中文Web目錄的截圖(截取于2010-3)
顯然,“音樂(lè)”屬于“藝術(shù)”,無(wú)論如何將兩者并列作為同一個(gè)目錄下的子內(nèi)容項(xiàng)并不合適,更不必說(shuō)“軍事”是否應(yīng)該放入“休閑娛樂(lè)”目錄下了。
但是我們要注意,這些Web目錄并不在意科學(xué)性,相反,它們更加在意易用性。一般的Web用戶可能并不十分了解目錄的層次結(jié)構(gòu),他們往往希望能夠在最短的時(shí)間內(nèi)找到自己所要的目錄項(xiàng),所以雅虎中文所設(shè)計(jì)的這些目錄往往是集中了最為流行常見(jiàn)的目錄項(xiàng),并且以一種極為方便和直觀的方式來(lái)展示目錄結(jié)構(gòu)。
然而,對(duì)于那些諸如圖書(shū)館員等從事專(zhuān)門(mén)信息資源管理的專(zhuān)家而言,他們可能并不滿意這樣的結(jié)構(gòu),為此還有一些更為專(zhuān)業(yè)的搜索引擎Web目錄。
克倫·施耐德(Karen G. Schneider)創(chuàng)辦的“圖書(shū)館員Internet索引(Librarians' Internet Index,LII)”就是一個(gè)專(zhuān)門(mén)面向圖書(shū)館員的專(zhuān)業(yè)Web目錄站點(diǎn),該目錄的結(jié)構(gòu)具有較為完善的組織,科學(xué)性強(qiáng),質(zhì)量較高。一般而言,那些具有收費(fèi)收錄(Paid Inclusion)服務(wù)的Web目錄,通常都不具備這些特點(diǎn)。LII的網(wǎng)址為:http://lii.org,主頁(yè)如圖3. 20所示:
圖3. 20 LII的Web目錄主頁(yè)界面(截取于2009-4)
后來(lái),LII與另外一家著名的專(zhuān)業(yè)Web目錄“Internet公共圖書(shū)館(Internet Public Library)”合并組建了ipl2,網(wǎng)址為:http://www.ipl.org。
再如Google搜索引擎也經(jīng)常充分利用圖書(shū)館員的反饋信息。它提供了“Google圖書(shū)館員報(bào)道(Google librarian newsletter)”的消息服務(wù),經(jīng)常收集世界各地圖書(shū)館員的意見(jiàn)和問(wèn)題,以此來(lái)改進(jìn)Google的搜索功能,并且定期向他們提供Google服務(wù)的相關(guān)原理和改進(jìn)說(shuō)明,相關(guān)內(nèi)容的介紹網(wǎng)址為:http://www.google.com/librariancenter/newsletter/0512.html,如圖3. 21所示:
圖3. 21 Google圖書(shū)館員報(bào)道的官方介紹(截取于2010-3)
6)主題Web目錄
上述這些綜合Web目錄還有很多。不過(guò)我們也要能夠看到它們存在的問(wèn)題,原因很簡(jiǎn)單,如果目錄小,價(jià)值不大,難以吸引用戶使用,如果目錄大,相關(guān)的人工整理成本太高,維護(hù)困難。所以,和綜合Web目錄不同,主題Web目錄采取了不同的設(shè)計(jì)策略,它只面向諸如商業(yè)和經(jīng)濟(jì)等特定領(lǐng)域,從而取得了目錄規(guī)模和運(yùn)轉(zhuǎn)成本之間的一個(gè)平衡。通常人們把這些主題Web目錄也稱為垂直Web目錄(Vertical Web Directory)、面向局部的Web目錄(Locally Oriented Directory)。
如Business.com就是一個(gè)專(zhuān)門(mén)面向商業(yè)領(lǐng)域的主題Web目錄,它的商業(yè)目錄結(jié)構(gòu)比較有特色,涵蓋了商業(yè)和經(jīng)濟(jì)領(lǐng)域的相關(guān)重要內(nèi)容。網(wǎng)址為:http://www.business.com,主頁(yè)如圖3. 22所示:
圖3. 22 Business.com的Web目錄主頁(yè)界面(截取于2010-3)
1995年成立的Looksmart也是一家Web目錄站點(diǎn),早期曾經(jīng)通過(guò)增加網(wǎng)頁(yè)收錄數(shù)量和規(guī)模來(lái)和Yahoo!目錄競(jìng)爭(zhēng)。顯然,這一招并不十分成功,2002年Looksmart 發(fā)明的一種新型的盈利模式為它的快速增長(zhǎng)提供了基礎(chǔ)。在此之前,幾乎所有的Web目錄站點(diǎn)都是采取較為固定的付費(fèi)收錄策略,如每月只需付多少錢(qián)可以收錄到哪個(gè)目錄中等等。然而,Looksmart采取了按點(diǎn)擊付費(fèi)(Pay Per Click)的收費(fèi)方法[6],也就是說(shuō),用戶點(diǎn)擊該收錄網(wǎng)頁(yè)次數(shù)越多,相應(yīng)的收錄費(fèi)用也就越高,這對(duì)被收錄網(wǎng)頁(yè)而言,顯然是一種很好的激勵(lì)措施,愿意為較高的點(diǎn)擊率而支付更多的費(fèi)用。
在內(nèi)容上,Looksmart不僅在自己的目錄結(jié)構(gòu)中收錄網(wǎng)頁(yè)索引,而且還根據(jù)主題分門(mén)別類(lèi)的收錄不少很有價(jià)值的內(nèi)容資源,應(yīng)該是個(gè)很不錯(cuò)的主題Web目錄。然而,這些收錄的內(nèi)容相關(guān)性卻因?yàn)楦鞣N原因而逐漸變差,后來(lái)在很大程度上又損害了Looksmart的聲譽(yù)。
然而在商業(yè)上發(fā)生了一連串的失敗,給Looksmart帶來(lái)了越來(lái)越多的不利影響。1998年,Looksmart以2000千萬(wàn)美元收購(gòu)一家非盈利的Web目錄站點(diǎn)Zeal來(lái)擴(kuò)展自己的目錄規(guī)模,但是到了2006年3月28日,Looksmart卻關(guān)閉了這個(gè)Zeal目錄。2002年3月,Looksmart還試圖通過(guò)收購(gòu)WiseNut搜索引擎來(lái)獲得發(fā)展,結(jié)果也不理想。不過(guò),最大的問(wèn)題還不止這些。Looksmart曾經(jīng)通過(guò)加盟諸如MSN等門(mén)戶站點(diǎn),通過(guò)付費(fèi)收錄方式來(lái)獲利。然而,Looksmart一直以來(lái)建立的良好信譽(yù)卻隨著這個(gè)合作而逐漸變差,而且Looksmart在商業(yè)上也逐漸越來(lái)越依賴于微軟的MSN搜索引擎。到了2003年,微軟宣布拋棄與Looksmart的合作,對(duì)Looksmart來(lái)說(shuō),這無(wú)疑是個(gè)致命的打擊。后來(lái),Looksmart開(kāi)始改用一個(gè)稱為Furl的社會(huì)化書(shū)簽(Social Bookmarking)管理站點(diǎn)來(lái)期望獲得新的訪問(wèn)流量增長(zhǎng),現(xiàn)在它主要為廣告商提供按點(diǎn)擊付費(fèi)的搜索網(wǎng)絡(luò)平臺(tái)服務(wù)。它的網(wǎng)址為:http://www.looksmart.com,主頁(yè)如圖3. 23所示:
圖3. 23 Looksmart的主頁(yè)界面(截取于2010-3)
綜上所述,Web目錄確實(shí)具有不少優(yōu)點(diǎn),所以在搜索引擎領(lǐng)域中一直都是一個(gè)不可或缺的角色。連Google都利用ODP目錄推出了自己的Web目錄站點(diǎn),網(wǎng)址為:http://dir.google.com,主頁(yè)如圖3. 24所示:
圖3. 24 Google的Web網(wǎng)頁(yè)目錄主頁(yè)界面(截取于2010-3)
然而,我們必須要看到這種方式并非現(xiàn)代搜索引擎的主流。由于Web網(wǎng)頁(yè)目錄需要大量的人工編撰工作,所以維護(hù)成本很高,縮放性很差。而且網(wǎng)頁(yè)目錄規(guī)模通常都不大,相對(duì)于關(guān)鍵詞查詢而言,我們可以認(rèn)為雖然關(guān)鍵詞查詢可能查準(zhǔn)率不高,但具有更高的查全率,而網(wǎng)頁(yè)目錄查詢則具有更高的查準(zhǔn)率,查全率則較低。
而且這種目錄結(jié)構(gòu)還存在一個(gè)不太引人注意的缺點(diǎn),那就是它要求用戶首先了解網(wǎng)頁(yè)目錄結(jié)構(gòu),否則用戶將很難使用。舉個(gè)例子,用戶想查詢“藍(lán)牙”的相關(guān)網(wǎng)頁(yè),如果他根本不知道這是一種無(wú)線通訊技術(shù)的話,那他就根本找不到目錄的入口,即便用戶知道這是無(wú)線技術(shù),恐怕也很難在較短的時(shí)間快速定位到所要的子目錄,究竟“無(wú)線通訊技術(shù)”在“數(shù)據(jù)通訊”目錄下呢還是在“硬件”目錄下呢?而且,更為麻煩的是,如果用戶認(rèn)為它應(yīng)該在“數(shù)據(jù)通訊”目錄下,而目錄編撰者卻把“藍(lán)牙”歸入“硬件”目錄中,也就是說(shuō),良好的目錄使用效果需要用戶和編撰者對(duì)目錄結(jié)構(gòu)具有一致的思路和理解,事實(shí)上這很難辦到,因此就會(huì)導(dǎo)致用戶難以理解,甚至用戶會(huì)認(rèn)為在這個(gè)目錄中根本找不到自己所需的內(nèi)容。所以,現(xiàn)在比較流行的Web目錄往往采取主題化策略,如只針對(duì)新型站點(diǎn)資源進(jìn)行收集和整理,另外博客目錄(Blog Directory)、社會(huì)化書(shū)簽?zāi)夸浀鹊纫餐哂胁诲e(cuò)的應(yīng)用效果。
1.1.1.4 當(dāng)代著名搜索引擎
從2000年左右起,一批新型搜索引擎企業(yè)逐漸出現(xiàn),其中很大一部分搜索引擎至今還在提供服務(wù),并且成為了主導(dǎo)當(dāng)代Internet搜索引擎市場(chǎng)的重要力量。它們不論是在技術(shù)實(shí)力上,還是在商業(yè)運(yùn)營(yíng)模式上,都比它們的前輩們?nèi)〉昧烁嗟某晒屯黄?。從技術(shù)上看,雖然基于爬蟲(chóng)或者Web目錄的傳統(tǒng)搜索引擎技術(shù)仍然還在發(fā)揮作用,但是各大新型搜索引擎所使用的核心技術(shù)已經(jīng)完全跳出了傳統(tǒng)的框架,紛紛提出自己的新技術(shù)和新方法,以期在功能和效果趕超過(guò)去的元老。從商業(yè)運(yùn)營(yíng)模式上看,搜索引擎已經(jīng)成為現(xiàn)代門(mén)戶網(wǎng)站中最為常見(jiàn)的免費(fèi)服務(wù)之一,而且也是各大網(wǎng)站吸引用戶訪問(wèn)的主要功能靚點(diǎn)。搜索引擎也從諸如競(jìng)價(jià)排名等傳統(tǒng)服務(wù)開(kāi)始轉(zhuǎn)型,推出一些新型的盈利模式,如Google所推出的AdSense 可以提供與網(wǎng)站的內(nèi)容相匹配的廣告,而網(wǎng)站可以在訪問(wèn)者點(diǎn)擊這些廣告時(shí)獲得收益,而Google的AdWords則規(guī)定僅當(dāng)有用戶點(diǎn)擊網(wǎng)站在Google聯(lián)網(wǎng)中的廣告時(shí),網(wǎng)站才需支付相應(yīng)費(fèi)用。這些形式具有極大的創(chuàng)意,也改變了人們對(duì)搜索引擎的使用習(xí)慣和認(rèn)識(shí)。
1)Google
Google已經(jīng)成為現(xiàn)代Internet上最大的搜索引擎之一,而且在業(yè)務(wù)上已經(jīng)開(kāi)始超越搜索引擎本身,開(kāi)始向移動(dòng)開(kāi)發(fā)、應(yīng)用軟件和操作系統(tǒng)等方向前進(jìn),成為可以和微軟等大公司抗衡的重要力量。不過(guò),這個(gè)搜索引擎在1998年10月之前,僅僅只是個(gè)美國(guó)斯坦福大學(xué)(Stanford Unviersity)的一個(gè)小型學(xué)生項(xiàng)目。1995年,斯坦福大學(xué)計(jì)算機(jī)系博士生拉里·佩奇(Larry Page)和塞吉·布林(Sergey Brin)開(kāi)始嘗試設(shè)計(jì)一個(gè)名稱為BackRub的項(xiàng)目。嚴(yán)格說(shuō)來(lái),BackRub只是一個(gè)可以統(tǒng)計(jì)分析網(wǎng)頁(yè)詞語(yǔ)信息的爬蟲(chóng)程序。不過(guò),佩奇和布林都認(rèn)為這個(gè)項(xiàng)目可以做下去,他們于1997年9月15日注冊(cè)了google.com的域名。Google這個(gè)名稱據(jù)說(shuō)來(lái)自于“googol”[7]單詞,意思是10的100次方,這個(gè)巨大的數(shù)象征著Google能夠處理海量的Internet網(wǎng)頁(yè)信息。1999年2月,Google完成了從Alpha版到Beta版的升級(jí)[8]。通常,Google公司把1998年9月27日認(rèn)作是自己的生日,每年這個(gè)時(shí)候,Google搜索引擎的主頁(yè)Logo都會(huì)變成一個(gè)祝賀生日的模樣。
Google和前期的搜索引擎相比,采取了一系列新技術(shù),如用于網(wǎng)頁(yè)排序的Pagerank算法等,其實(shí)正是這個(gè)基于網(wǎng)頁(yè)鏈接分析的算法才使得Google具有了和以前搜索引擎完全不一樣的使用效果。另外,通過(guò)十幾年的發(fā)展,它還是開(kāi)發(fā)了一大批讓人耳目一新的服務(wù),如近幾年所廣泛使用的地圖搜索和移動(dòng)搜索等。不過(guò),正如所有成功的搜索引擎一樣,Google的成功也離不開(kāi)商業(yè)上的努力。在2000年之前,Google的發(fā)展和推廣一直都不是很快。直到2000年開(kāi)始為Yahoo!提供后臺(tái)搜索技術(shù)支持之后,Google才憑借Yahoo!快速發(fā)展起來(lái),正如當(dāng)年網(wǎng)景提攜了Yahoo!一樣。在2002年到2003年間,Google連續(xù)兩年被評(píng)為互聯(lián)網(wǎng)世界第一品牌。從這以后,Google的發(fā)展就進(jìn)入了快速增長(zhǎng)期。
不過(guò),中國(guó)一直是Google未能始終取得輝煌的市場(chǎng)。事實(shí)上,Google直到2004年才進(jìn)入中國(guó)內(nèi)地。一個(gè)明顯的事實(shí)就是直到2005年4月29日Google才花費(fèi)巨資贖回了google.com.cn和google.cn的域名。這樁交易也是國(guó)內(nèi)有史以來(lái)跨國(guó)公司第一次以高價(jià)贖回與其品牌密切相關(guān)的域名,據(jù)估計(jì),為了這19個(gè)字母,Google支付的費(fèi)用應(yīng)在百萬(wàn)元之上,平均每個(gè)字母價(jià)值超過(guò)5萬(wàn)元[9]。在此之前,google.com.cn域名的擁有者卻是一個(gè)“創(chuàng)可貼”論壇,如圖3. 25所示:
圖3. 25 google.com.cn域名的前擁有者“創(chuàng)可貼”主頁(yè)界面(截取于2004-9)[10]
這種情況并非少見(jiàn)。直到2010年4月,還有人收藏著百度的美國(guó)域名站點(diǎn),http://www.baidu.us,期待著類(lèi)似于Google故事的財(cái)富奇跡。這事實(shí)上也是一種一直以來(lái)始終存在的Internet域名收藏服務(wù),
2006年4月Google首席執(zhí)行官埃里克·施密特來(lái)到中國(guó),將Google中文命名為“谷歌”,并開(kāi)設(shè)了一個(gè)號(hào)稱最短的域名“www.g.cn”。而遺憾的是到了2010年3月Google終于宣布退出中國(guó)內(nèi)地市場(chǎng),但是Google搜索引擎的強(qiáng)大搜索能力確實(shí)為中國(guó)的其他搜索引擎提供了一個(gè)良好的學(xué)習(xí)范本。Google的網(wǎng)址為:http://www.google.com,主頁(yè)如圖3. 26所示:
圖3. 26 Google搜索引擎的主頁(yè)界面(截取于2010-4)
2)微軟搜索引擎
讀者可以會(huì)很奇怪為什么這個(gè)標(biāo)題沒(méi)有具體的搜索引擎名稱?事實(shí)上,微軟一直都有自己的搜索引擎,而且還不止一個(gè)搜索引擎,不過(guò)這些搜索引擎一直在換。這充分反映了一個(gè)問(wèn)題,那就是微軟想在搜索引擎領(lǐng)域中有所作為,然而始終沒(méi)有找到合適的突破口。不過(guò),即便如此,也毫不妨礙微軟搜索引擎一直成為世界排名前三的著名搜索引擎之一。
微軟較早的一款著名搜索引擎是于2004年7月推出的MSN Search,可能在中國(guó)各大搜索引擎紛紛推出新版本時(shí),微軟太過(guò)于倉(cāng)促,使得這款搜索引擎在剛推出時(shí)甚至都沒(méi)有簡(jiǎn)體中文版本,而只有繁體中文版本,網(wǎng)址為:http://search.msn.com,主頁(yè)如圖3. 27所示:
圖3. 27 MSN Search搜索引擎的主頁(yè)界面(截取于2004-9)
到了2006年9月,微軟改用了Windows Live Search搜索引擎,網(wǎng)址為:http://www.live.com,主頁(yè)如圖3. 28所示:
圖3. 28 Windows Live Search搜索引擎的主頁(yè)界面(截取于2009-3)
不論是哪一款,當(dāng)時(shí)的市場(chǎng)反應(yīng)始終平平。為此微軟先后又推出若干個(gè)曇花一現(xiàn)的搜索引擎版本,如“杜威女士(Ms. Dewey)”就是一款號(hào)稱交互式搜索引擎的奇妙作品,它基于Windows Live Search搜索引擎的技術(shù)基礎(chǔ),但是在界面上使用Flash動(dòng)畫(huà)創(chuàng)造了一個(gè)虛擬女性助手,背景是一個(gè)現(xiàn)代城市街景。這個(gè)助手制作代價(jià)不菲,據(jù)說(shuō)花了3天時(shí)間聘請(qǐng)明星雅尼娜·加萬(wàn)卡(Janina Gavankar)真人錄像得到600多個(gè)視頻片段,并隨機(jī)使用以使得動(dòng)畫(huà)人物可以產(chǎn)生豐富多變的姿勢(shì)和表情,她甚至可以在用戶沒(méi)有任何輸入的閑暇時(shí)刻中拿出道具來(lái)玩耍。最為重要的是,她可以使用交互式的聲音提醒并告知用戶查詢的內(nèi)容和結(jié)果[11]。網(wǎng)址為:http://msdewey.com,主頁(yè)如圖3. 29所示:
圖3. 29 Ms. Dewey搜索引擎的主頁(yè)界面(截取于2009-3)
后來(lái),微軟還采用諸如通過(guò)查詢關(guān)鍵詞來(lái)猜字謎并贏取獎(jiǎng)勵(lì)的方法來(lái)吸引用戶使用,最為夸張的是,在2008年11月,用戶還可以通過(guò)微軟搜索引擎購(gòu)買(mǎi)惠普電腦并獲得40%的現(xiàn)金返還。然而,這些方法似乎都沒(méi)有效果。到了2007年3月,微軟在Internet搜索引擎市場(chǎng)的占有率已經(jīng)跌至兩年前的水平。不得已,微軟使出了最后的看家本領(lǐng),在2008年1月準(zhǔn)備以45億美元收購(gòu)Yahoo!,希望兩家合并一起和Google競(jìng)爭(zhēng),此時(shí)的Google已經(jīng)占據(jù)了全球8成多的搜索引擎市場(chǎng)份額。不過(guò),收購(gòu)最終以失敗告終。
造成這種局面的原因有時(shí)很復(fù)雜,甚至都不一定是技術(shù)問(wèn)題。如微軟在線用戶商業(yè)集團(tuán)高級(jí)副總裁尤瑟夫·邁瑟迪(Yusuf Mehdi)曾經(jīng)表示,微軟搜索服務(wù)不受歡迎的部分原因在于品牌不如Google。他進(jìn)一步舉例到,微軟曾做過(guò)用戶測(cè)試,在不知道用戶搜索引擎使用偏好的情況下,把微軟搜索引擎的查詢結(jié)果加上Google的Logo呈現(xiàn)在用戶面前,參測(cè)用戶無(wú)一例外地認(rèn)為,這是最好的查詢結(jié)果。事實(shí)上,現(xiàn)代搜索引擎技術(shù)已有較大的發(fā)展,用戶并不容易區(qū)別這些不同搜索引擎技術(shù)的不同之處。
2009年初,微軟開(kāi)始了一個(gè)名叫Kumo的搜索引擎實(shí)驗(yàn)項(xiàng)目,并準(zhǔn)備以此來(lái)替代Live Search。Kumo在日語(yǔ)中為“云”和“蜘蛛”的意思。主頁(yè)如圖3. 30所示:
圖3. 30 Kumo實(shí)驗(yàn)搜索引擎的主頁(yè)界面(截取于2009-6)
這個(gè)名稱是不是隱含著在云計(jì)算年代中的搜索含義我們不得而知,但是我們知道,Kumo壓根就沒(méi)有正式發(fā)布。也許Kumo只是過(guò)渡產(chǎn)品,最終微軟于2009年5月發(fā)布了一個(gè)成熟的搜索引擎產(chǎn)品Bing,這個(gè)象鈴聲的單詞據(jù)說(shuō)來(lái)自于一名德國(guó)百歲老人的姓氏,中文名稱為“必應(yīng)”,應(yīng)該為有求必應(yīng)之義。網(wǎng)址為:http://cn.bing.com,主頁(yè)如圖3. 31所示:
圖3. 31 Bing搜索引擎的主頁(yè)界面(截取于2009-6)
3)Ask
其實(shí),較Google和Bing而言,Ask搜索引擎并不算是非常著名,但是它的制作創(chuàng)意非常出色。它號(hào)稱為“自然語(yǔ)言搜索引擎(Natural Language Search Engine)”。也就是說(shuō),它允許用戶使用類(lèi)似于口語(yǔ)中常見(jiàn)的問(wèn)話句子來(lái)進(jìn)行查詢,因此易用性很強(qiáng)。
創(chuàng)建于1997年4月的Ask搜索引擎當(dāng)時(shí)的名稱是Ask Jeeves,意思是有問(wèn)題可以詢問(wèn)男仆,名稱很形象,問(wèn)男仆難道不使用正常的句子嗎?因此早期的主頁(yè)上常常有個(gè)面帶微笑的英國(guó)男仆。不過(guò),要想提供這種自然語(yǔ)句的查詢,技術(shù)難度很大,因此早期Ask搜索引擎使用人工編撰的方法來(lái)提供一些常見(jiàn)句子的匹配結(jié)果。后來(lái)Ask使用DirectHit搜索引擎來(lái)提供信息查詢服務(wù),此時(shí)的網(wǎng)頁(yè)查詢結(jié)果采用流行度作為主要排序指標(biāo)。2001年,Ask改用Teoma來(lái)提供查詢服務(wù),Teoma最大的特點(diǎn)在于采用網(wǎng)頁(yè)結(jié)果聚類(lèi)方法來(lái)組織主題,以方便用戶快速得到所需內(nèi)容。2006年,Ask正式從Ask Jeeves更名過(guò)來(lái)。網(wǎng)址為:http://www.ask.com,主頁(yè)如圖3. 32所示:
圖3. 32 Ask搜索引擎的主頁(yè)界面(前者截取于2007-9,后者截取于2010-4)[12]
1.1.2 中國(guó)搜索引擎的發(fā)展歷史
之所以說(shuō)中國(guó)搜索引擎而不說(shuō)中文搜索引擎,是因?yàn)閲?guó)外的著名搜索引擎大都在中國(guó)設(shè)有公司并且營(yíng)運(yùn)相應(yīng)的中文版本搜索引擎,如Google在2000年9月就推出了中文版本,2005年5月在上海開(kāi)設(shè)了辦事處。我們所指的中國(guó)搜索引擎專(zhuān)指中國(guó)本地企業(yè)創(chuàng)辦的搜索引擎。事實(shí)上,中國(guó)本地搜索引擎的發(fā)展歷史要比國(guó)外晚的多,直到2000以后,中國(guó)內(nèi)地的搜索引擎市場(chǎng)才開(kāi)始獲得快速發(fā)展。但是,作為全球網(wǎng)民最多的國(guó)家之一,中國(guó)一直都是各大搜索引擎廠商關(guān)注的重點(diǎn)。但是,由于中文處理的特殊性,國(guó)內(nèi)搜索引擎雖然起步晚,卻具有中文處理的先天優(yōu)勢(shì)和對(duì)中國(guó)市場(chǎng)更為了解的特殊能力,因此中國(guó)本地搜索引擎的發(fā)展相當(dāng)快,甚至超越了在中國(guó)營(yíng)運(yùn)的國(guó)外搜索引擎巨頭。
1)百度
百度已經(jīng)成為全球最大的中文搜索引擎之一。這個(gè)詩(shī)意的名稱來(lái)自于宋詞名句“眾里尋他千百度”,巧妙表達(dá)了搜尋信息的涵義,不過(guò)也有人認(rèn)為它很有禪意。1991年畢業(yè)于北京大學(xué)信息管理系的李彥宏在獲得美國(guó)紐約州立大學(xué)布法羅分校(University at Buffalo, the State University of New York)計(jì)算機(jī)科學(xué)碩士學(xué)位后,并在Infoseek工作期間創(chuàng)建了ESP[13]技術(shù)將它成功應(yīng)用。1996年,他還首先解決了如何將基于網(wǎng)頁(yè)質(zhì)量的排序方法與基于相關(guān)性的排序方法進(jìn)行結(jié)合的問(wèn)題,并因此獲得了美國(guó)專(zhuān)利。1999年底,李彥宏攜風(fēng)險(xiǎn)投資回國(guó)和其好友徐勇于2000年1月在北京中關(guān)村創(chuàng)立了百度(Baidu)公司。剛起步的時(shí)候,百度主要為諸如搜狐和新浪等門(mén)戶網(wǎng)站提供搜索技術(shù)服務(wù),2001年8月開(kāi)始正式提供自己的搜索引擎服務(wù)。2005年8月5日,百度赴美上市成功。另外,百度還于2004年8月收購(gòu)以分類(lèi)目錄為主要特色的國(guó)內(nèi)著名站點(diǎn)“hao123”,在Web目錄方面開(kāi)始提供自己的服務(wù)。更為重要的是,百度還在競(jìng)價(jià)排名服務(wù)等搜索引擎商業(yè)模式創(chuàng)新上取得了一定的成果。除此以外,今天的百度已經(jīng)在電子商務(wù)和社區(qū)搜索等領(lǐng)域開(kāi)始了更多的嘗試。百度的網(wǎng)址為:http://www.baidu.com,主頁(yè)如圖3. 33所示:
圖3. 33 百度搜索引擎的主頁(yè)界面(截取于2010-4)[14]
所謂社區(qū)搜索(Community Search),是指利用某種社會(huì)交流平臺(tái)軟件,將人們存儲(chǔ)在腦海中的知識(shí)發(fā)掘出來(lái),以解決其他用戶所要查詢的問(wèn)題,也被稱為“協(xié)同搜索(Collaborative Search)”。諸如百度的“貼吧(http://tieba.baidu.com)”、“知道(http://zhidao.baidu.com)”和“百度Hi(http://im.baidu.com)”實(shí)時(shí)通訊工具,都能夠提供這種社區(qū)搜索服務(wù),對(duì)于在一個(gè)社區(qū)里面提出的一個(gè)問(wèn)題,由人工參與解答而非搜索引擎通過(guò)機(jī)器自動(dòng)算法獲得結(jié)果。也有人稱之為問(wèn)答式搜索或者在線百科全書(shū)等。
2)北大天網(wǎng)
很多人都不太了解北大天網(wǎng),事實(shí)上,它也不是商業(yè)公司運(yùn)作的,而是由北京大學(xué)計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)研究室于1997年10月29日推出的搜索引擎。從實(shí)際運(yùn)行效果來(lái)看,該款搜索引擎為中國(guó)本地搜索引擎提供了大量技術(shù)人才,而且相關(guān)研究室也因此承擔(dān)了大量的搜索引擎相關(guān)學(xué)術(shù)研究工作,取得了不少成績(jī),如北大天網(wǎng)中搜索引擎與互聯(lián)網(wǎng)信息挖掘組的李曉明、閆宏飛和王繼民所著的《搜索引擎—原理、技術(shù)與系統(tǒng)》就是一本很好的搜索引擎原理入門(mén)教程[15]。北大天網(wǎng)的網(wǎng)址為:http://e.pku.edu.cn,主頁(yè)如圖3. 34所示:
圖3. 34 北大天網(wǎng)搜索引擎的主頁(yè)界面(截取于2007-9)
除了具有一般的網(wǎng)頁(yè)查詢功能外,它還具有強(qiáng)大的FTP文件查詢能力,點(diǎn)擊圖3. 34中的“文件”鏈接即可查詢FTP文件資源。另外,北大天網(wǎng)還擁有一個(gè)巨大的“中國(guó)Web信息博物館”,它主要收集和展示歷史上的中國(guó)網(wǎng)頁(yè)信息內(nèi)容,目前存儲(chǔ)的網(wǎng)頁(yè)數(shù)量已達(dá)數(shù)十億以上。網(wǎng)址為:http://www.infomall.cn,主頁(yè)如圖3. 35所示:
圖3. 35 北大天網(wǎng)“中國(guó)Web信息博物館”的主頁(yè)界面(截取于2010-4)
國(guó)外也有類(lèi)似于北大天網(wǎng)“中國(guó)Web信息博物館”的站點(diǎn),如“Internet檔案(Internet Archive)”,網(wǎng)址為:http://www.archive.org,如在其中查詢某站點(diǎn)的歷史網(wǎng)頁(yè)內(nèi)容記錄,如圖3. 36所示:
圖3. 36 在Internet Archive站點(diǎn)中查詢某站點(diǎn)的歷史網(wǎng)頁(yè)內(nèi)容頁(yè)面(截取于2009-4)
3)其他搜索引擎
中國(guó)本土的搜索引擎還有很多,下面對(duì)其他搜索引擎簡(jiǎn)單做一說(shuō)明。
搜狗是搜狐(Sohu)公司的子公司,1996年8月成立的搜狐公司也是最早提供網(wǎng)絡(luò)信息分類(lèi)導(dǎo)航服務(wù)的網(wǎng)站,1998年2月,搜狐推出了分類(lèi)目錄搜索引擎,是當(dāng)年Yahoo!搜索引擎對(duì)應(yīng)的中國(guó)版本。而搜狗則是搜狐于2004年8月3日專(zhuān)門(mén)推出的一款搜索引擎。據(jù)稱名稱來(lái)自于2001年電影《大腕》里的幽默臺(tái)詞“他們搜狐,我們搜狗,各搜各的!”。早期的搜狐也做搜索,但是自從推出搜狐以后,搜狐就加快了搜索引擎開(kāi)發(fā)的進(jìn)度。另外,搜狗在拼音輸入等桌面應(yīng)用程序領(lǐng)域也一直表現(xiàn)不錯(cuò)。網(wǎng)址為:http://www.sogou.com,主頁(yè)如圖3. 37所示:
圖3. 37 搜狗搜索引擎的主頁(yè)界面(截取于2010-4)
搜狗為什么要做拼音呢?這與搜索引擎有沒(méi)有關(guān)系呢?正如搜狐副總裁王小川所言,搜索為拼音服務(wù),拼音為搜索服務(wù)。一方面從商業(yè)層次上看,拼音輸入法是一種使用面很廣的輸入法,利用這種免費(fèi)的輸入法可以極大的宣傳搜狗,增加用戶對(duì)搜狗搜索引擎的了解,擴(kuò)大搜索引擎的知名度;另一方面從技術(shù)層次上看,現(xiàn)代搜索引擎越來(lái)越重視對(duì)用戶行為的理解,認(rèn)為只有最為了解用戶需求的搜索引擎才能取得成功。利用人們?cè)谑褂幂斎敕ㄖ械脑~語(yǔ)組合等輸入信息可以有效的提供“線下(相對(duì)于網(wǎng)絡(luò)在線訪問(wèn)而言,就是不在線的桌面應(yīng)用環(huán)境)”用戶的需求信息,以此來(lái)改進(jìn)搜索引擎,反之也可以利用搜索引擎用戶的線上查詢需求來(lái)增強(qiáng)拼音輸入法的有效性,如可以把當(dāng)前的熱門(mén)查詢?cè)~語(yǔ)組合排在輸入結(jié)果的前面等。
于1997年成立的網(wǎng)易是國(guó)內(nèi)第一家提供中文全文查詢服務(wù)的門(mén)戶站點(diǎn),之后經(jīng)過(guò)幾次升級(jí)并先后和Google和百度在搜索技術(shù)有過(guò)合作。同時(shí)它在創(chuàng)立時(shí)就推出了全中文搜索引擎目錄服務(wù),雖然這不是主要服務(wù)內(nèi)容。網(wǎng)易還曾經(jīng)擁有和維護(hù)著當(dāng)時(shí)唯一的開(kāi)放式目錄體系中文版本(類(lèi)似于著名的ODP),這個(gè)項(xiàng)目于2006年被關(guān)閉了。不過(guò),就在2006年底,網(wǎng)易推出了自主研發(fā)的中文搜索引擎有道測(cè)試版,并于2007年12月推出正式版本。網(wǎng)址為:http://www.youdao.com,主頁(yè)如圖3. 38所示:
圖3. 38 有道搜索引擎的主頁(yè)界面(截取于2010-4)
雖然以門(mén)戶服務(wù)為主的新浪并非一個(gè)專(zhuān)業(yè)的搜索引擎,但是新浪于1999年2月2日就已經(jīng)推出了中文搜索引擎“新浪搜索”測(cè)試版,1999年10月9日,新浪還推出了高級(jí)搜索,所收集的網(wǎng)頁(yè)內(nèi)容規(guī)模和分類(lèi)目錄的規(guī)范程度都比較不錯(cuò)。2000年11月1日,新浪又正式推出國(guó)內(nèi)第一家綜合搜索引擎,即可以同時(shí)對(duì)多種不同類(lèi)型的信息內(nèi)容進(jìn)行同步查詢,在用戶的一次查詢過(guò)程中,就可以在結(jié)果網(wǎng)頁(yè)上獲得包含目錄、網(wǎng)站、新聞標(biāo)題、游戲等在內(nèi)的各類(lèi)綜合查詢結(jié)果。2005年6月30日,新浪終于推出了專(zhuān)門(mén)的搜索引擎——新浪愛(ài)問(wèn)搜索,網(wǎng)址為:http://www.iask.com,主頁(yè)如圖3. 39所示:
圖3. 39 愛(ài)問(wèn)搜索引擎的主頁(yè)界面(截取于2010-4)
中搜是由“慧聰搜索”發(fā)展而來(lái),它是由中國(guó)網(wǎng)、慧聰國(guó)際等公司共同創(chuàng)辦的中國(guó)搜索聯(lián)盟,于2002年9月正式改名為“中國(guó)搜索”,并于2003年8月推出搜索門(mén)戶,后來(lái)改稱“中搜”,網(wǎng)址為:http://www.zhongsou.com,主頁(yè)如圖3. 40所示:
圖3. 40 中搜搜索引擎的主頁(yè)界面(截取于2010-4)
甚至一些其他門(mén)戶站點(diǎn),如實(shí)時(shí)通訊軟件提供商騰訊也推出了自己的搜索引擎“搜搜”,網(wǎng)址為:http://www.soso.com,主頁(yè)如圖3. 41所示:
圖3. 41 騰訊“搜搜”搜索引擎的主頁(yè)界面(截取于2010-7)
除此以外,象中國(guó)臺(tái)灣和香港地區(qū)都有自己本地的搜索引擎。如由臺(tái)灣中正大學(xué)吳升教授所領(lǐng)導(dǎo)GAIS實(shí)驗(yàn)室開(kāi)發(fā)的Openfind搜索引擎成立于1998年1月,是臺(tái)灣最早開(kāi)發(fā)的中文智能搜索引擎,采用GAIS實(shí)驗(yàn)室推出多元排序(PolyRank)核心技術(shù),今天的業(yè)務(wù)主要從事搜索產(chǎn)品相關(guān)服務(wù),網(wǎng)址為:http://www.openfind.com。再如中國(guó)香港搜索引擎Timway,網(wǎng)址為:http://www.timway.com。
1.2 搜索引擎的原理與工作機(jī)制
正如序言所說(shuō),本書(shū)并非技術(shù)原理類(lèi)教程,因此并不打算對(duì)此話題做過(guò)多的講述。但是,通過(guò)以往的使用經(jīng)驗(yàn)表明,如果用戶對(duì)搜索引擎的基本工作機(jī)制有一些基本的了解,那么用戶可以更好的理解現(xiàn)代搜索引擎能夠做什么以及不能夠做什么,同時(shí),在使用當(dāng)中如果出現(xiàn)了問(wèn)題,我們也可以更加容易知道個(gè)中原因,并有針對(duì)性的進(jìn)行改進(jìn),從而提高信息查詢的效果。因此,本節(jié)對(duì)此問(wèn)題略作說(shuō)明。
1.2.1 搜索引擎工作機(jī)制
從結(jié)構(gòu)上看,搜索引擎主要可以分為三個(gè)模塊,分別是網(wǎng)頁(yè)遍歷模塊、索引模塊和檢索模塊。下面我們結(jié)合搜索引擎的一個(gè)典型的工作流程,來(lái)談?wù)勊烤故侨绾芜\(yùn)行的。
假設(shè)用戶打開(kāi)Google搜索引擎,鍵入“南京財(cái)經(jīng)大學(xué)”六個(gè)字,在耗費(fèi)大概0.15秒以后,用戶看到了最終的結(jié)果網(wǎng)頁(yè),其中南京財(cái)經(jīng)大學(xué)的主頁(yè)鏈接被排在第一位,其他幾個(gè)相關(guān)站點(diǎn)分別羅列于下方,如圖3. 42所示:
圖3. 42 利用Google搜索引擎獲取“南京財(cái)經(jīng)大學(xué)”的查詢結(jié)果頁(yè)面(截取于2010-4)
這個(gè)短短的0.15秒究竟發(fā)生了什么呢?我們憑借直覺(jué),感覺(jué)應(yīng)該是這樣的。搜索引擎獲取到用戶輸入的查詢?cè)~語(yǔ)(即所謂的關(guān)鍵詞),到Internet上去查看每一篇網(wǎng)頁(yè)內(nèi)容,并判斷網(wǎng)頁(yè)是否與所查詢的詞語(yǔ)相關(guān),然后把找到的網(wǎng)頁(yè)URL及其相關(guān)信息顯示給用戶即可。
這種看起來(lái)非常簡(jiǎn)單的做法其實(shí)根本行不通。原因有很多,就說(shuō)一個(gè)最為簡(jiǎn)單的問(wèn)題,那就是搜索引擎如何快速的在如此多的網(wǎng)頁(yè)中找到用戶所需的網(wǎng)頁(yè)?前文已經(jīng)說(shuō)明,Google搜索引擎在2008年就已能獲取到萬(wàn)億級(jí)的網(wǎng)頁(yè)數(shù)量,而且據(jù)學(xué)者Bar-Yossef和Gurevich在2006年采用隨機(jī)采樣方法的研究表明,當(dāng)時(shí)的Google搜索引擎大概只能獲取到實(shí)際Internet上64%的網(wǎng)頁(yè)[16]??梢院敛豢鋸埖恼f(shuō),Internet真是一個(gè)海量的網(wǎng)頁(yè)世界。事實(shí)上,搜索引擎能夠獲取的網(wǎng)頁(yè)URL只會(huì)更多。因此,在如此多的網(wǎng)頁(yè)中,實(shí)時(shí)的在每篇網(wǎng)頁(yè)中逐字逐句的查找關(guān)鍵詞,顯然絕不可能在0.15秒完成。
讀者可能并不清楚為什么網(wǎng)頁(yè)數(shù)量和網(wǎng)頁(yè)URL數(shù)量并不一致。一般來(lái)說(shuō),一個(gè)網(wǎng)頁(yè)應(yīng)該具有一個(gè)URL,一個(gè)URL對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)。對(duì)于傳統(tǒng)的靜態(tài)網(wǎng)頁(yè)而言,這是正確的。但是對(duì)于現(xiàn)在更為常見(jiàn)的動(dòng)態(tài)網(wǎng)頁(yè)而言,一個(gè)網(wǎng)頁(yè)完全可以對(duì)應(yīng)多個(gè)不同的URL,如下面兩個(gè)URL:
http://www.njmars.net/list.asp?boardid=4
http://www.njmars.net/list.asp?boardid=12
它們都是訪問(wèn)http://www.njmars.net/list.asp網(wǎng)頁(yè),但是后面跟著的參數(shù)并不一樣,所以讀者會(huì)發(fā)現(xiàn)它們分別打開(kāi)不同的論壇欄目。
為此,搜索引擎需要事先做點(diǎn)準(zhǔn)備工作,就像從一個(gè)整理過(guò)的圖書(shū)架可以更快的找到所需要的圖書(shū)一樣。不過(guò),搜索引擎的準(zhǔn)備工作比較復(fù)雜,可能得花費(fèi)它幾天到幾周的準(zhǔn)備時(shí)間。在這期間,它需要完成兩件重要的工作。
一是先利用爬蟲(chóng)從Internet上獲取盡可能多的網(wǎng)頁(yè),將其保存在搜索引擎自己的數(shù)據(jù)庫(kù)中。這里有兩個(gè)需要解釋的地方:一是之所以說(shuō)是盡可能的多,是搜索引擎自己的技術(shù)局限性和網(wǎng)頁(yè)不斷增加的現(xiàn)狀,導(dǎo)致不可能獲取全部的網(wǎng)頁(yè)信息,通常爬蟲(chóng)一秒鐘也只能獲取到不到100個(gè)網(wǎng)頁(yè)信息;二是之所以這樣做的原因是在獲取這些網(wǎng)頁(yè)后,再以它們作為用戶查詢的依據(jù),就不要在用戶查詢時(shí)再去實(shí)時(shí)查詢Internet上的網(wǎng)頁(yè)內(nèi)容。具體來(lái)看,爬蟲(chóng)程序可以從一個(gè)或者幾個(gè)起始網(wǎng)頁(yè)開(kāi)始,下載這些網(wǎng)頁(yè),并將網(wǎng)頁(yè)內(nèi)容和URL等信息一起保存在搜索引擎自己的數(shù)據(jù)庫(kù)中。然后,爬蟲(chóng)程序可以從這些網(wǎng)頁(yè)中進(jìn)一步得到其他網(wǎng)頁(yè)的鏈接,再次獲取這些超鏈所對(duì)應(yīng)的其他網(wǎng)頁(yè),這個(gè)過(guò)程將不斷的進(jìn)行下去。通常這種過(guò)程我們稱之為“網(wǎng)頁(yè)遍歷”。由于不可能收集完所有的網(wǎng)頁(yè),所以搜索引擎通常會(huì)在一段時(shí)間后或者在滿足一定條件時(shí)完成這種遍歷活動(dòng)。
因此,這時(shí)我們可以回答一個(gè)問(wèn)題:為什么有時(shí)候搜索引擎找不到某些已經(jīng)存在的網(wǎng)頁(yè)?除去用戶方法錯(cuò)誤等主觀原因外,常見(jiàn)的一個(gè)原因就是搜索引擎可能沒(méi)有對(duì)這個(gè)網(wǎng)頁(yè)進(jìn)行遍歷和進(jìn)一步的索引,因此在利用該搜索引擎進(jìn)行查詢時(shí),用戶將無(wú)法獲得該網(wǎng)頁(yè)的任何信息。
二是需要對(duì)存儲(chǔ)在搜索引擎本地?cái)?shù)據(jù)庫(kù)的網(wǎng)頁(yè)信息進(jìn)行必要的分析和索引。分析的目的在于解析網(wǎng)頁(yè)內(nèi)容,如今天的搜索引擎可以查詢諸如Word文檔和Flash動(dòng)畫(huà)等各種常見(jiàn)格式的文件,這個(gè)功能就需要搜索引擎對(duì)收集來(lái)的文件信息進(jìn)行分析才能實(shí)現(xiàn)。索引過(guò)程也很復(fù)雜,細(xì)節(jié)我們可以不必關(guān)心,不過(guò)我們必須理解建立索引的必要性。如果沒(méi)有索引,對(duì)于這些數(shù)量極大的網(wǎng)頁(yè)內(nèi)容,如果采用直接掃描的方式,仍然不可能在很短的時(shí)間內(nèi)完成用戶查詢。建立索引好比是圖書(shū)館對(duì)圖書(shū)進(jìn)行重新編碼和整理,從而可以在較短的時(shí)間內(nèi)找到所需的內(nèi)容。本書(shū)的后面章節(jié)將會(huì)介紹很多具體的搜索引擎查詢方法,其實(shí)每種方法都可能需要不同的索引來(lái)處理,所以,搜索引擎的索引量非常大。優(yōu)秀的索引方法可以極大了提高查詢速度,甚至可以達(dá)到在毫秒級(jí)的查詢響應(yīng)能力。
到此,搜索引擎就完成了必要的準(zhǔn)備工作,開(kāi)始提供查詢服務(wù)。在用戶輸入查詢關(guān)鍵詞后,搜索引擎利用該關(guān)鍵詞到索引中去查詢對(duì)應(yīng)的網(wǎng)頁(yè),并將命中的網(wǎng)頁(yè)URL和諸如摘要等相關(guān)信息整理出來(lái)。由于可能會(huì)命中數(shù)以萬(wàn)計(jì)的網(wǎng)頁(yè)結(jié)果,所以通常搜索引擎只顯示部分結(jié)果,其他的內(nèi)容放在“下一頁(yè)”中顯示。因此,這里又產(chǎn)生一個(gè)重要問(wèn)題,把什么網(wǎng)頁(yè)放在第一頁(yè)呢?又根據(jù)什么把什么網(wǎng)頁(yè)放在第一條呢?可以想象,應(yīng)該把用戶最想得到的網(wǎng)頁(yè)結(jié)果放在第一頁(yè)的第一條。這就需要搜索引擎具有相關(guān)度排序能力。所謂相關(guān)度,可以理解為滿足用戶需求的程度。由于每個(gè)搜索引擎的相關(guān)度排序方法都不一樣,所以即便是同一個(gè)關(guān)鍵詞,不同的搜索引擎返回結(jié)果也往往具有非常明顯的差異。
我們又可以回答一個(gè)問(wèn)題了:為什么搜索引擎的有些結(jié)果網(wǎng)頁(yè)打不開(kāi)?此時(shí)瀏覽器會(huì)顯示“無(wú)法找到該頁(yè)”,如圖3. 43所示:
圖3. 43 某些通過(guò)搜索引擎查詢到的不能打開(kāi)的網(wǎng)頁(yè)界面(截取于2010-4)
更為奇怪的是,有時(shí)打開(kāi)某些結(jié)果網(wǎng)頁(yè),你會(huì)發(fā)現(xiàn)這個(gè)網(wǎng)頁(yè)壓根就沒(méi)有你所要的內(nèi)容。其實(shí)造成這些現(xiàn)象的原因可能都是一樣。因?yàn)樗阉饕姹闅v和索引網(wǎng)頁(yè)是需要一定時(shí)間,也許在當(dāng)時(shí)爬蟲(chóng)遍歷網(wǎng)頁(yè)時(shí),這些網(wǎng)頁(yè)還存在或者還有某些關(guān)鍵詞信息,但是到用戶查詢的時(shí)候,這些網(wǎng)頁(yè)可能已經(jīng)被刪除,這時(shí)會(huì)出現(xiàn)上述“無(wú)法找到該頁(yè)”的錯(cuò)誤,或者網(wǎng)頁(yè)URL還有效,但是內(nèi)容已經(jīng)被修改,所以壓根就沒(méi)有用戶現(xiàn)在所要的內(nèi)容。
不過(guò),這個(gè)問(wèn)題并非不能解決。搜索引擎結(jié)果頁(yè)面每條命中網(wǎng)頁(yè)記錄后的“網(wǎng)頁(yè)快照”就提供了一種獲取搜索引擎所存儲(chǔ)的網(wǎng)頁(yè)原始內(nèi)容的能力。在上述情況出現(xiàn)的時(shí)候,可以通過(guò)使用網(wǎng)頁(yè)快照獲取所需內(nèi)容,如圖3. 44所示:
圖3. 44 百度搜索引擎中“南京財(cái)經(jīng)大學(xué)”命中結(jié)果網(wǎng)頁(yè)的網(wǎng)頁(yè)快照(截取于2010-4)
1.2.2 查詢結(jié)果的顯示模式和排序依據(jù)
同樣的查詢“南京財(cái)經(jīng)大學(xué)”在百度中的搜索結(jié)果如圖3. 45所示:
圖3. 45 利用百度搜索引擎獲取“南京財(cái)經(jīng)大學(xué)”的查詢結(jié)果頁(yè)面(截取于2010-4)
和圖3. 42所示的Google返回結(jié)果相比,兩者的區(qū)別比較明顯。不過(guò),我們也能看到它們都有一種同樣的模式。一般而言,每個(gè)命中網(wǎng)頁(yè)都會(huì)給出諸如網(wǎng)頁(yè)URL、網(wǎng)頁(yè)標(biāo)題、網(wǎng)頁(yè)摘要等內(nèi)容。其中網(wǎng)頁(yè)標(biāo)題通常就是一個(gè)指向網(wǎng)頁(yè)URL的超文本,而且網(wǎng)頁(yè)URL還會(huì)以綠色顯示在網(wǎng)頁(yè)記錄的最底下,網(wǎng)頁(yè)摘要?jiǎng)t僅僅是網(wǎng)頁(yè)內(nèi)容中含有關(guān)鍵詞的一段文字,這些內(nèi)容中含有關(guān)鍵詞的部分通常都會(huì)紅色高亮顯示以示強(qiáng)調(diào)。除此以外,有時(shí)搜索引擎還會(huì)給出網(wǎng)頁(yè)更新時(shí)間(如2010-4-7)、網(wǎng)頁(yè)大小(如2K[18])等。再如,如果安裝了Google的工具欄,還能夠看到網(wǎng)頁(yè)的PageRank值等。
當(dāng)然,在結(jié)果網(wǎng)頁(yè)列表中,最令用戶關(guān)心的其實(shí)還是命中網(wǎng)頁(yè)的次序,這好比是梁山好漢的座次,越靠前越說(shuō)明該結(jié)果網(wǎng)頁(yè)越重要和越相關(guān)。前文說(shuō)過(guò),這是相關(guān)度排序方法在起作用。不過(guò),有一個(gè)問(wèn)題需要回答:搜索引擎是根據(jù)什么來(lái)排序的?往往在不同的搜索引擎結(jié)果中網(wǎng)頁(yè)次序的差異非常大,即便是同一個(gè)搜索引擎的結(jié)果都會(huì)因?yàn)榘姹静煌芯薮蟛町?。有一個(gè)有趣的站點(diǎn)給出了Google英文版和Google中文版的顯示結(jié)果差異圖,網(wǎng)址為:http://www.langreiter.com/exec/google-vs-google.html,如圖3. 46所示:
圖3. 46 給出Google英文版和Google中文版在查詢“China”時(shí)的顯示結(jié)果差異(截取于2010-4)
早期的搜索引擎一般都是按照比較傳統(tǒng)的方法來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行排序,大概有如下幾種方法:
一是按照詞語(yǔ)出現(xiàn)的次數(shù),即詞語(yǔ)頻率,簡(jiǎn)稱為詞頻。如果網(wǎng)頁(yè)A出現(xiàn)了10次“貓”,顯然比只出現(xiàn)一次“貓”的網(wǎng)頁(yè)B更能反映與查詢?cè)~“貓”的相關(guān)性。因此,如果一個(gè)網(wǎng)頁(yè)含有的查詢?cè)~語(yǔ)越多,一般可以認(rèn)為該網(wǎng)頁(yè)和該查詢?cè)~語(yǔ)的相關(guān)度越大。
二是按照詞語(yǔ)出現(xiàn)的位置。如果網(wǎng)頁(yè)A在標(biāo)題中出現(xiàn)了“貓”,顯然要比在正文中出現(xiàn)“貓”的網(wǎng)頁(yè)B更能反映與查詢?cè)~“貓”的相關(guān)性。因此,搜索引擎可以根據(jù)詞語(yǔ)出現(xiàn)位置的不同分別設(shè)置不同的權(quán)重值,以此反映這種位置不同所產(chǎn)生的相關(guān)度差異。
不過(guò),這些方法都存在著一個(gè)致命的問(wèn)題。誰(shuí)不想讓自己的網(wǎng)頁(yè)排在搜索引擎返回網(wǎng)頁(yè)結(jié)果的前面呢?網(wǎng)絡(luò)管理員完全可以通過(guò)在自己的網(wǎng)頁(yè)中重復(fù)或者故意在重要位置添加一些流行關(guān)鍵詞,從而獲得本來(lái)并不應(yīng)該獲得的次序提升。我們把這種行為稱為“搜索引擎作弊(Search Engine Spam)”。而早期的搜索引擎無(wú)一例外都存在著這種被欺騙的可能性。
如同評(píng)價(jià)一個(gè)人,他自己說(shuō)怎么怎么好是沒(méi)有用的,而憑借詞頻和詞語(yǔ)出現(xiàn)位置來(lái)評(píng)價(jià)網(wǎng)頁(yè)相關(guān)性就如同采用這樣的自我評(píng)價(jià)方法一樣缺乏客觀性。顯然,更為客觀的方法應(yīng)該是由別人來(lái)評(píng)價(jià)。對(duì)于網(wǎng)頁(yè)而言,這種所謂的別人評(píng)價(jià)方法存在嗎?完全存在,這就是超鏈。
我們做一個(gè)分析。如果在查詢某一個(gè)詞語(yǔ)時(shí),有一個(gè)Yahoo!的網(wǎng)頁(yè)和某個(gè)用戶的個(gè)人博客網(wǎng)頁(yè)都被命中,那么哪個(gè)網(wǎng)頁(yè)更可能與當(dāng)前查詢用戶的信息需求相關(guān)呢?雖然我們沒(méi)有具體考察這些網(wǎng)頁(yè)的內(nèi)容,但是憑感覺(jué),或者說(shuō)有相當(dāng)大的概率可以保證,Yahoo!的網(wǎng)頁(yè)可能更相關(guān),因?yàn)閅ahoo!網(wǎng)站知名度高。為什么說(shuō)Yahoo!網(wǎng)站知名度高呢?因?yàn)橛泻芏郔nternet上的網(wǎng)頁(yè)都有指向Yahoo!網(wǎng)站網(wǎng)頁(yè)的超鏈。對(duì)于這種超鏈,Yahoo!自己無(wú)法控制,它們是由其他人在自己網(wǎng)頁(yè)中建立的,從而較為客觀和間接的反映出目標(biāo)網(wǎng)頁(yè)的質(zhì)量和相關(guān)性。事實(shí)上,Google的PageRank和百度的超鏈分析技術(shù)都基于這種思想來(lái)給結(jié)果網(wǎng)頁(yè)進(jìn)行排序,實(shí)踐證明該方法很有效。然而,不可否認(rèn)的是,即便是這種方法,現(xiàn)在也仍然受到多方面的挑戰(zhàn),甚至催生出一種新的職業(yè):SEO(Search Engine Optimizer,搜索引擎優(yōu)化師),言下之意就是利用搜索引擎排序方法的特點(diǎn),有意識(shí)的對(duì)目標(biāo)網(wǎng)頁(yè)建立一些超鏈從而獲得查詢結(jié)果次序的提升。搜索引擎允許正當(dāng)?shù)膬?yōu)化提升行為,但是會(huì)檢測(cè)那些惡意的提升行為。2006年德國(guó)的寶馬汽車(chē)公司就因?yàn)檫@種惡意提升行為而遭到Google的封殺,以至于當(dāng)時(shí)從Google搜索引擎中再也無(wú)法找到德國(guó)寶馬汽車(chē)公司的網(wǎng)站信息,人們形象的稱之為“Google死刑”。
不過(guò),細(xì)心的讀者可能還會(huì)發(fā)現(xiàn)百度結(jié)果網(wǎng)頁(yè)的右邊還有一組網(wǎng)頁(yè)結(jié)果,這是怎么回事?其實(shí),搜索引擎早已注意到這種排序機(jī)制對(duì)于企業(yè)產(chǎn)品營(yíng)銷(xiāo)是非常重要的,與其你們你搶我?jiàn)Z的來(lái)爭(zhēng),不如我搜索引擎自己來(lái)賣(mài)。搜索引擎可以通過(guò)競(jìng)價(jià)出售的方式來(lái)銷(xiāo)售某些流行關(guān)鍵詞的排序位置,這也是現(xiàn)代搜索引擎一種重要的商業(yè)盈利模式。有些搜索引擎將這些競(jìng)價(jià)排名的網(wǎng)頁(yè)和一般的網(wǎng)頁(yè)結(jié)果混合在一起,而諸如百度等搜索引擎則在結(jié)果網(wǎng)頁(yè)的右邊單獨(dú)顯示這些付費(fèi)排序結(jié)果內(nèi)容。不管怎么說(shuō),競(jìng)價(jià)排名也成為一種重要的排序指標(biāo)。
更有意思的是,有些搜索引擎甚至還允許用戶自主選擇排序依據(jù),如北大天網(wǎng)的FTP搜索引擎,就可以根據(jù)“相關(guān)”、“時(shí)間”、“大小、“距離”和“穩(wěn)定”等指標(biāo)由用戶自主選擇排序依據(jù),從而方便用戶使用,比如,如果要下載的文件較大,則可以按照“大小”排序把大文件放在前面。頁(yè)面如圖3. 47所示:
圖3. 47 北大天網(wǎng)FTP搜索引擎可以根據(jù)多種指標(biāo)對(duì)結(jié)果進(jìn)行排序(截取于2004-9)
最后說(shuō)明一點(diǎn),由于搜索引擎爬蟲(chóng)程序會(huì)定期重新遍歷網(wǎng)頁(yè),更新網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù),所以搜索結(jié)果和結(jié)果網(wǎng)頁(yè)的次序并非始終保持不變。有時(shí)這些結(jié)果網(wǎng)頁(yè)甚至?xí)@示出劇烈的排名波動(dòng),有的網(wǎng)站會(huì)在查詢結(jié)果中突然消失再也找不到,而有的網(wǎng)站則突然名列首位。如Google搜索引擎數(shù)據(jù)庫(kù)每月會(huì)有一次大規(guī)模的升級(jí),產(chǎn)生的這種波動(dòng)現(xiàn)象被人形象的稱之為“Google之舞(Google Dance)”。
1.3 特種搜索引擎
除了Web網(wǎng)頁(yè)搜索引擎外,Internet網(wǎng)絡(luò)上還有很多特殊類(lèi)型的搜索引擎,如元搜索引擎、FTP搜索引擎、多媒體搜索引擎和地圖搜索引擎等。這些都能夠給用戶提供一些具有特殊功能的查詢方法,它們對(duì)Web網(wǎng)頁(yè)搜索引擎也是一種很好的功能補(bǔ)充。
1.3.1 元搜索引擎
元搜索引擎的原理和一般搜索引擎并不一樣,它并沒(méi)有采用標(biāo)準(zhǔn)的爬蟲(chóng)和索引數(shù)據(jù)庫(kù)等復(fù)雜的結(jié)構(gòu),相反,它非常簡(jiǎn)單。
為什么要使用元搜索引擎?元搜索引擎是如何工作的?在回答這些問(wèn)題之前,我們先來(lái)看看傳統(tǒng)Web搜索引擎可能存在的問(wèn)題。事實(shí)上,由于各個(gè)Web搜索引擎所使用的爬蟲(chóng)技術(shù)和索引技術(shù)都各不相同,而且都把實(shí)現(xiàn)細(xì)節(jié)作為核心秘密并不對(duì)外公開(kāi),所以就使得各個(gè)Web搜索引擎的差異很大,比如現(xiàn)代搜索引擎的相關(guān)度排序算法都各不相同,通常任何兩個(gè)搜索引擎都會(huì)對(duì)同一個(gè)查詢?cè)~語(yǔ)提供完全不一樣的結(jié)果,如查詢“期貨行情”,百度的查詢結(jié)果和Google的查詢結(jié)果如圖3. 48所示:
圖3. 48 在百度和Google中查詢“期貨行情”的不同顯示結(jié)果頁(yè)面(截取于2010-7)
這就會(huì)造成一些困惑,究竟什么網(wǎng)頁(yè)是用戶最想得到的?而且不同的搜索引擎優(yōu)點(diǎn)和強(qiáng)項(xiàng)也各不一樣,經(jīng)常有人形象的說(shuō)“內(nèi)事問(wèn)百度,外事問(wèn)Google”,說(shuō)白一點(diǎn),就是百度查詢中文信息更為方便一些,而Google查詢外文信息則更為強(qiáng)大。
能不能把所有搜索引擎的功能結(jié)合起來(lái)提供一個(gè)更為強(qiáng)大的搜索引擎?這就是元搜索引擎。一般而言,元搜索引擎往往能夠提供更為方便和強(qiáng)大的查詢界面接口,用戶使用起來(lái)更為方便,如有的元搜索引擎增加了時(shí)間查詢功能,有些還能夠?qū)⒕W(wǎng)頁(yè)查詢、詞典查詢、百科查詢和尋人服務(wù)等全部結(jié)合成一個(gè)一站式的查詢站點(diǎn)。當(dāng)然,元搜索引擎自身沒(méi)有任何爬蟲(chóng)和索引,不過(guò)它會(huì)將用戶的查詢轉(zhuǎn)發(fā)到其他真正的Web搜索引擎中,一般的轉(zhuǎn)發(fā)方式是轉(zhuǎn)發(fā)給多個(gè)搜索引擎,然后將獲取到的不同搜索引擎的查詢結(jié)果集中起來(lái),按照自己提出的相關(guān)度排序算法重新排序和篩選,整理出最終的查詢結(jié)果返回給用戶。復(fù)雜的轉(zhuǎn)發(fā)方式甚至可以根據(jù)用戶查詢的不同而轉(zhuǎn)發(fā)到不同的搜索引擎和一些信息查詢站點(diǎn),以充分發(fā)揮其他搜索引擎和信息查詢站點(diǎn)的特殊優(yōu)勢(shì),最終也把結(jié)果整理后返回給用戶。所有這些處理步驟用戶都是看不見(jiàn)的,用戶唯一能夠感受到的只有一個(gè)功能更為強(qiáng)大和全面的搜索引擎,那就是元搜索引擎。
不妨做個(gè)比喻,比如火車(chē)訂票,如果直接到火車(chē)站去購(gòu)票,雖然可以直接獲得所需的車(chē)票,但是有時(shí)并不方便。借助票務(wù)公司,上述缺點(diǎn)都可以很好的得以解決,雖然他們的火車(chē)票最終仍然來(lái)自于火車(chē)站。用戶直接把請(qǐng)求提交給票務(wù)公司,票務(wù)公司利用火車(chē)站的資源,通過(guò)增加自己的服務(wù)內(nèi)容以方便用戶使用,最終將火車(chē)票返回給用戶。我們可以把火車(chē)站看成是一個(gè)搜索引擎,而把票務(wù)公司看成是元搜索引擎,而用戶的買(mǎi)票則可以看成是信息查詢。
目前,主要的元搜索引擎有兩種類(lèi)型:元搜索引擎站點(diǎn)和桌面元搜索引擎。
1.3.1.1 元搜索引擎站點(diǎn)
元搜索引擎站點(diǎn)是以Web網(wǎng)站的形式提供服務(wù),和一般的搜索引擎相比,外觀和使用方式十分相似。它們有Metacrawler、iTools和Dogpile等。
1)Metacrawler
最早的元搜索引擎就是于1995年由華盛頓大學(xué)(University of Washington)學(xué)生埃里克·塞爾伯格(Eric Selberg)和奧林·艾茲尼(Oren Etzioni)設(shè)計(jì)的Metacrawler,現(xiàn)在它主要利用Google、Yahoo!、Bing和Ask等搜索引擎來(lái)提供查詢服務(wù)。它的名字直接翻譯過(guò)來(lái)就是“元爬蟲(chóng)”,這恐怕也是元搜索引擎名稱中那個(gè)“元”的來(lái)歷。它的網(wǎng)址為:http://www.metacrawler.com,主頁(yè)如圖3. 49所示:
圖3. 49 Metacrawler元搜索引擎的主頁(yè)界面(截取于2010-7)
值得注意的是,該元搜索引擎不能很好的支持中文信息查詢。如查詢“Investment(投資)”,結(jié)果頁(yè)面如圖3. 50所示:
圖3. 50 在Metacrawler元搜索引擎中查詢“Investment”的結(jié)果頁(yè)面(截取于2010-7)
除了能夠在網(wǎng)頁(yè)上部看到明顯的“View Results From(查看結(jié)果來(lái)自于)”說(shuō)明外,每條記錄的后面都跟有諸如“Found on Google, Bing, Yahoo! Search(在Google,Bing,Yahoo! 中查詢到)”之類(lèi)的說(shuō)明,不同的命中結(jié)果都會(huì)跟隨不一樣的來(lái)源搜索引擎名稱,而且這些結(jié)果的內(nèi)容和排序都和后臺(tái)搜索引擎并不一樣。Metacrawler還在結(jié)果網(wǎng)頁(yè)中提供很多更為強(qiáng)大的查詢功能。如擴(kuò)展查詢,它顯示在頁(yè)面的右部,標(biāo)題為“Are you looking for(你是不是要找)”。同時(shí),還有歷史查詢記錄(Recent Searches)和流行查詢?cè)~(Popular Searches)。
除了這些功能外,Metacrawler還具有黃頁(yè)查詢和百頁(yè)查詢等高級(jí)功能,其中黃頁(yè)查詢包括了Metacrawler提供的百頁(yè)查詢服務(wù),即尋人服務(wù)。在Metacrawler主頁(yè)點(diǎn)擊“Yellow Pages(黃頁(yè))”,即可看到黃頁(yè)查詢頁(yè)面,如圖3. 51所示:
圖3. 51 Metacrawler元搜索引擎提供的黃頁(yè)查詢(截取于2010-7)
在此用戶可以查詢企業(yè)、個(gè)人和地圖等信息,Metacrawler通過(guò)Superpages黃頁(yè)站點(diǎn)[19]返回公司目錄信息,通過(guò)Intelius尋人查詢站點(diǎn)[20]來(lái)提供尋人服務(wù)。如查詢“Microsoft(微軟)”的公司信息,查詢結(jié)果如圖3. 52所示:
圖3. 52 在Metacrawler元搜索引擎黃頁(yè)查詢中查詢“Microsoft”的結(jié)果頁(yè)面(截取于2010-7)
2)iTools
iTools也是一款非常不錯(cuò)的Web元搜索引擎。和Metacrawler相比,它所收錄的搜索引擎和提供的功能更多。網(wǎng)址為:http://www.itools.com,主頁(yè)如圖3. 53所示:
圖3. 53 iTools元搜索引擎的主頁(yè)界面(截取于2010-7)
iTools也不能很好的支持中文查詢,但是它提供的查詢功能確實(shí)太多,主要分為三大類(lèi),分別是“Search Tools(查詢工具)”、“Language Tools(語(yǔ)言工具)”和“Research Tools(研究工具)”。所有的工具都有默認(rèn)的搜索引擎或者查詢站點(diǎn),用戶可以更改這些設(shè)定。在頁(yè)面的左邊有一個(gè)列表,比如點(diǎn)擊“Search Tools(查詢工具)”即可看到查詢工具的默認(rèn)搜索引擎設(shè)置,并可以更改,不過(guò)和Metacrawler能夠同時(shí)查詢多個(gè)搜索引擎不一樣,iTools中的一個(gè)查詢功能只能設(shè)定一個(gè)默認(rèn)的搜索引擎來(lái)查詢,頁(yè)面如圖3. 54所示:
圖3. 54 在iTools元搜索引擎中更改默認(rèn)的查詢工具設(shè)置(截取于2010-7)
對(duì)于語(yǔ)言工具和研究工具而言,iTools的功能也非常多,如語(yǔ)言工具中利用Merriam-Webster(韋氏詞典)提供的詞典服務(wù)和利用微軟Encarta在線百科全書(shū)提供的百科全書(shū)查詢服務(wù)等。相關(guān)查詢界面如圖3. 55所示:
圖3. 55 iTools元搜索引擎提供的語(yǔ)言工具和研究工具(截取于2010-7)
1.3.1.2 桌面元搜索引擎
由于元搜索引擎實(shí)現(xiàn)難度小,完全可以將其制作成一個(gè)可以運(yùn)行在計(jì)算機(jī)上的應(yīng)用程序,這樣用戶只需打開(kāi)這個(gè)程序就可以使用元搜索引擎的各項(xiàng)功能。這種程序被稱為桌面元搜索引擎。這些軟件大多都可以從Internet中下載,一般的軟件下載站點(diǎn)中“網(wǎng)絡(luò)工具”的“網(wǎng)絡(luò)搜索”欄目都會(huì)有收藏。
1)颶風(fēng)搜索通
它是一個(gè)桌面應(yīng)用程序,可以將用戶查詢轉(zhuǎn)發(fā)到包括百度、Google等在內(nèi)共7個(gè)搜索引擎,并將結(jié)果集中顯示在該程序界面中。如查詢“匯率”相關(guān)網(wǎng)頁(yè)結(jié)果,用戶能夠看到明顯的在各個(gè)搜索引擎中查詢結(jié)果的獲取進(jìn)度,界面如圖3. 56所示:
圖3. 56 在颶風(fēng)搜索通中查詢“匯率”的程序運(yùn)行界面(截取于2010-7)
點(diǎn)擊具體的每一個(gè)搜索引擎,可以看到該搜索引擎的查詢結(jié)果,如圖3. 57所示:
圖3. 57 在颶風(fēng)搜索通中查詢百度搜索引擎獲取的“匯率”相關(guān)網(wǎng)頁(yè)結(jié)果(截取于2010-7)
該桌面搜索引擎還可以允許用戶通過(guò)提交自定義搜索引擎來(lái)擴(kuò)展系統(tǒng)的查詢功能。
2)搜索奇兵
該系統(tǒng)功能更為強(qiáng)大一些,不僅可以對(duì)多個(gè)搜索引擎進(jìn)行同步查詢,而且還增加了諸如過(guò)濾重復(fù)域名、按更新時(shí)間排序、驗(yàn)證網(wǎng)址方法是否更加先進(jìn)與穩(wěn)定、過(guò)濾不合適字詞等功能,這些功能都是對(duì)現(xiàn)有搜索引擎功能的擴(kuò)充和完善。如查詢“iphone”的相關(guān)查詢結(jié)果界面如圖3. 58所示:
圖3. 58 在搜索奇兵中查詢“iphone”相關(guān)網(wǎng)頁(yè)結(jié)果(截取于2010-7)
1.3.2 FTP搜索引擎
FTP是早期Internet所提供的文件查詢服務(wù),但是隨著WWW服務(wù)的出現(xiàn),FTP并沒(méi)有消失,相反,人們?cè)诤芏嗲闆r下仍然需要使用這種功能,特別是在查詢音樂(lè)、軟件、電子書(shū)或者視頻等文件信息的時(shí)候,利用FTP可以一步到位的找到所需文件。Internet上現(xiàn)在仍有很多FTP服務(wù)器在運(yùn)行,其中相當(dāng)一部分是免費(fèi)的FTP服務(wù)器。然而,我們需要知道哪個(gè)FTP服務(wù)器上有哪些文件,這也是早期Archie出現(xiàn)的原因之一。
和元搜索引擎一樣,在Internet上有專(zhuān)門(mén)的基于WWW方式訪問(wèn)的FTP搜索引擎站點(diǎn)和桌面FTP搜索引擎程序,這些不論是在功能上還是界面易用度上,都比早期的Archie等工具更為優(yōu)秀。
1.3.2.1 FTP搜索引擎站點(diǎn)
1)北大天網(wǎng)
它是一款國(guó)內(nèi)較為著名的FTP搜索引擎,由北京大學(xué)計(jì)算機(jī)網(wǎng)絡(luò)與分布式系統(tǒng)實(shí)驗(yàn)室運(yùn)行維護(hù)。它提供了網(wǎng)頁(yè)查詢和FTP文件查詢兩種主要功能。網(wǎng)址為:http://e.pku.edu.cn,主頁(yè)如圖3. 59所示:
圖3. 59 北大天網(wǎng)FTP搜索引擎的主頁(yè)界面(截取于2005-12)
點(diǎn)擊主頁(yè)上的“搜索文件”就可以查詢FTP文件。如查詢開(kāi)發(fā)工具“JDK”的軟件包文件,可以直接在搜索框中輸入“JDK”,即可得到命中結(jié)果。和一般的Web搜索引擎不一樣的地方在于,這些命中結(jié)果都是可以直接下載的FTP文件鏈接,界面如圖3. 60所示:
圖3. 60 在北大天網(wǎng)FTP搜索引擎中查詢“JDK”的相關(guān)FTP文件結(jié)果頁(yè)面(截取于2005-12)
北大天網(wǎng)還允許用戶對(duì)結(jié)果按照不同指標(biāo)進(jìn)行排序已得到合適的結(jié)果次序。同時(shí)借助FTP搜索引擎,我們還可以得到更多的相關(guān)查詢結(jié)果。比如既然命中的FTP服務(wù)器上有JDK的相關(guān)文件,那么它就應(yīng)該還具有與此相關(guān)的更多資源。如在上述結(jié)果界面中點(diǎn)擊“資源位置”鏈接,即可打開(kāi)相應(yīng)結(jié)果所在的FTP服務(wù)器文件目錄,從中可以看出與JDK相關(guān)的其他一些開(kāi)發(fā)工具也都可以下載使用,界面如圖3. 61所示:
圖3. 61 在北大天網(wǎng)FTP搜索引擎中進(jìn)一步查詢與“JDK”相關(guān)的其他FTP文件結(jié)果(截取于2005-12)
2)Grid FTP搜索引擎
它是由中國(guó)科學(xué)技術(shù)大學(xué)網(wǎng)絡(luò)信息中心網(wǎng)絡(luò)技術(shù)研究中心運(yùn)行維護(hù)的FTP搜索引擎,既可以進(jìn)行中國(guó)科學(xué)技術(shù)大學(xué)的校園FTP資源查詢,也可以用于Internet中FTP資源的查詢。在功能上,它可以查詢諸如文件和影視等各種常見(jiàn)FTP資源。網(wǎng)址為:http://grid.ustc.edu.cn,主頁(yè)如圖3. 62所示:
圖3. 62 Grid FTP搜索引擎的主頁(yè)界面(截取于2010-7)
3)FileWatcher(文件看守者)
它是一款國(guó)外的FTP搜索引擎。除了支持一般的FTP文件名稱查詢外,還支持部分文件內(nèi)容的查詢功能,甚至提供了很多布爾查詢和模糊查詢功能。網(wǎng)址為:http://www.filewatcher.com,主頁(yè)如圖3. 63所示:
圖3. 63 FileWatcher FTP搜索引擎的主頁(yè)界面(截取于2010-7)
比如查詢“carrace(賽車(chē)游戲)”,界面如圖3. 64所示:
圖3. 64 在FileWatcher FTP搜索引擎中查詢“carrace”的結(jié)果頁(yè)面(截取于2010-7)
所有的查詢結(jié)果文件只要能夠找得到,一般都可以直接點(diǎn)擊下載,這是FTP搜索引擎最為重要的一個(gè)特點(diǎn)。
FileWatcher另一個(gè)非常強(qiáng)大的地方在于它還支持正則查詢(Regex Query)。比如正則查詢表達(dá)式“^car*game”就表示“以car開(kāi)頭并后接game”的相關(guān)詞語(yǔ),查詢結(jié)果如圖3. 65所示:
圖3. 65 在FileWatcher FTP搜索引擎中進(jìn)行正則查詢“^car*game”的結(jié)果頁(yè)面(截取于2010-7)
1.3.2.2 桌面FTP搜索引擎
此類(lèi)桌面FTP搜索引擎有很多。和桌面元搜索引擎一樣,這些軟件也多位于下載站點(diǎn)中“網(wǎng)絡(luò)工具”的“網(wǎng)絡(luò)搜索”欄目。此類(lèi)搜索引擎軟件不帶有自己的索引,往往只提供一個(gè)類(lèi)似于爬蟲(chóng)的搜索程序,可以掃描FTP服務(wù)器來(lái)獲取相應(yīng)的文件資源信息。
FTP搜索利器就是一款常見(jiàn)的桌面FTP搜索引擎軟件,該軟件允許用戶設(shè)置起始IP和結(jié)束IP,并自動(dòng)掃描此IP段的所有的FTP服務(wù)器,并可以瀏覽相應(yīng)FTP服務(wù)器下的所有文件信息。程序界面如圖3. 66所示:
圖3. 66 FTP搜索利器的程序運(yùn)行界面(截取于2010-7)
1.3.3 多媒體搜索引擎
從概念上看,多媒體搜索引擎是相對(duì)于一般文本搜索引擎而言的,也就是說(shuō),利用該搜索引擎用戶可以查詢諸如圖片、視頻和音頻等多媒體信息。事實(shí)上,現(xiàn)階段的大多數(shù)搜索引擎都支持多媒體查詢功能,如百度的MP3搜索和Google的圖片搜索等。
然而,現(xiàn)階段的多媒體搜索引擎都是利用文字信息來(lái)查詢,這種方式被稱之為基于文本(Text-based)的多媒體查詢方法。雖然看起來(lái)比較簡(jiǎn)單和易于使用,但是由于一般的多媒體數(shù)據(jù)信息通常都會(huì)缺乏必要的文字信息說(shuō)明,而且在現(xiàn)階段人們還難以有效和快速的從多媒體信息中抽取文字信息內(nèi)容,所以利用文字信息進(jìn)行查詢的效果通常都不是很好。
隨著技術(shù)的發(fā)展,人們也逐漸推出了一些更為高級(jí)的利用多媒體信息自身特征數(shù)據(jù)進(jìn)行查詢的方法,如按照音樂(lè)風(fēng)格和圖片顏色等方法,這種方式被稱之為基于內(nèi)容(Content-based)的多媒體查詢方法。
本節(jié)分別介紹圖片搜索引擎、音樂(lè)搜索引擎和視頻搜索引擎等三種最為常見(jiàn)的多媒體搜索引擎,同時(shí)對(duì)基于文本的查詢方法和基于內(nèi)容的查詢方法也分別予以說(shuō)明。
1.3.3.1 圖片搜索引擎
比如百度的圖片搜索引擎,用戶可以從百度的主頁(yè)選擇“圖片”進(jìn)入,也可以直接進(jìn)入它的網(wǎng)址,為:http://image.baidu.com,主頁(yè)如圖3. 67所示:
圖3. 67 百度圖片搜索引擎的主頁(yè)界面(截取于2010-7)
比如想查詢中國(guó)工商銀行的標(biāo)志圖片,可以直接輸入“中國(guó)工商銀行標(biāo)志”,查詢結(jié)果如圖3. 68所示:
圖3. 68 在百度圖片搜索引擎中查詢“中國(guó)工商銀行標(biāo)志”的結(jié)果頁(yè)面(截取于2010-7)
雖然此次查詢效果不錯(cuò),但也需要掌握很多的查詢方法和注意事項(xiàng)。
首先應(yīng)當(dāng)理解,這種基于文字的多媒體查詢對(duì)于較為常見(jiàn)的普通查詢效果一般都不錯(cuò),但是對(duì)于功能較為獨(dú)特、專(zhuān)指性較強(qiáng)的查詢而言,則效果往往不甚理想。如查詢“南京財(cái)經(jīng)大學(xué)信息工程學(xué)院”,查詢結(jié)果如圖3. 69所示:
圖3. 69 在百度圖片搜索引擎中查詢“南京財(cái)經(jīng)大學(xué)信息工程學(xué)院”的結(jié)果頁(yè)面(截取于2010-7)
顯然結(jié)果不夠理想,這些圖片都是南京財(cái)經(jīng)大學(xué)的校園圖片。造成這種現(xiàn)象的主要原因有兩個(gè):一個(gè)相關(guān)圖片可能確實(shí)很少,二是相關(guān)圖片可能沒(méi)有足夠的有效文字進(jìn)行描述,因此無(wú)法查詢出來(lái)。
第二是要注意準(zhǔn)確表達(dá)用戶查詢需求。如查詢蘋(píng)果公司的著名標(biāo)記,直接輸入“蘋(píng)果”,查詢結(jié)果多為水果類(lèi)圖片,如圖3. 70所示:
圖3. 70 在百度圖片搜索引擎中查詢“蘋(píng)果”的結(jié)果頁(yè)面(截取于2010-7)
此時(shí)可以考慮使用其他圖片搜索引擎,更換查詢?cè)~語(yǔ)或者采用更多的文本查詢策略等方法,這些內(nèi)容在下一章有專(zhuān)門(mén)說(shuō)明。
第三可以考慮使用一些基于內(nèi)容的查詢方法,如在百度圖片搜索引擎中,我們能夠在搜索框下方看到諸如“新聞圖片”、“全部圖片”、“壁紙”、“表情”和“頭像”之類(lèi)的類(lèi)別說(shuō)明,甚至還有更為高級(jí)的“圖片尺寸”和“圖片顏色”,其中“圖片顏色”就可以看成是一種典型的基于內(nèi)容的查詢方法,如選擇“黑色”,因?yàn)樘O(píng)果水果不可能為黑色,相反一些產(chǎn)品商標(biāo)則更易于采用黑色之類(lèi)的典雅設(shè)計(jì)方案,查詢結(jié)果如圖3. 71所示:
圖3. 71 在百度圖片搜索引擎“蘋(píng)果”查詢結(jié)果頁(yè)面中選擇“黑色”圖片(截取于2010-7)
隨著技術(shù)的發(fā)展,現(xiàn)代圖片搜索引擎的查詢功能更為完善和豐富,如Idée公司實(shí)驗(yàn)室[21]推出的幾款基于顏色和圖片相似度的搜索引擎系統(tǒng)等。如其中基于顏色的圖片搜索引擎允許用戶選擇圖片所具有的顏色,自由查詢相應(yīng)的圖片,結(jié)果如圖3. 72所示:
圖3. 72 在Idée公司實(shí)驗(yàn)室圖片搜索引擎中根據(jù)顏色查詢圖片的結(jié)果頁(yè)面(截取于2010-7)
1.3.3.2 音樂(lè)搜索引擎
音樂(lè)搜索引擎屬于音頻搜索引擎的一種。早期百度提供的MP3搜索就是一種著名的音樂(lè)搜索引擎,網(wǎng)址為:http://mp3.baidu.com,主頁(yè)如圖3. 73所示:
圖3. 73 百度MP3搜索引擎的主頁(yè)界面(截取于2010-7)
它提供了諸如基于歌曲名稱、歌手和歌詞等文本查詢方法,也允許用戶選擇音樂(lè)文件的類(lèi)型,如“MP3”、“rm”和“wma”等格式。其中的“視頻”查詢只是將音樂(lè)查詢和視頻查詢功能結(jié)合在一個(gè)界面上,本質(zhì)仍然是視頻查詢而已。
下面重點(diǎn)介紹一下Google的音樂(lè)搜索引擎。因?yàn)樗峁┝艘粋€(gè)極為有趣的、基于內(nèi)容的查詢方法,網(wǎng)址為:http://www.google.cn/music,主頁(yè)如圖3. 74所示:
圖3. 74 Google音樂(lè)搜索引擎的主頁(yè)界面(截取于2010-7)
點(diǎn)擊其中的“挑歌”,即可打開(kāi)一個(gè)界面,允許用戶按照包括“節(jié)奏”、“聲調(diào)”、“音色”在內(nèi)的歌曲風(fēng)格,以及“年代”、“歌手”、“流派”和“語(yǔ)言”等多項(xiàng)指標(biāo)來(lái)進(jìn)行復(fù)合查詢。如查詢2001年到2003年間、聲調(diào)低沉并且音色豐富的歌曲,查詢結(jié)果如圖3. 75所示:
圖3. 75 在Google音樂(lè)搜索引擎通過(guò)音樂(lè)風(fēng)格來(lái)挑歌(截取于2010-7)
任意選擇一個(gè)歌曲,都可以打開(kāi)Google的在線試聽(tīng)音樂(lè)頁(yè)面,直接聽(tīng)取歌曲和瀏覽歌詞,同時(shí)還能查詢“相似歌曲”和下載所需歌曲,界面如圖3. 76所示:
圖3. 76 Google音樂(lè)搜索引擎的在線試聽(tīng)音樂(lè)界面(截取于2010-7)
1.3.3.3 視頻搜索引擎
視頻查詢是這些多媒體搜索引擎中功能最為復(fù)雜的一個(gè),實(shí)現(xiàn)難度也最大。為了提供查詢的準(zhǔn)確度和滿足用戶對(duì)最新視頻的查詢需求,現(xiàn)階段的搜索引擎多采用與著名媒體和其他視頻內(nèi)容提供商合作的方式來(lái)提供視頻查詢服務(wù)。如百度的視頻搜索引擎網(wǎng)址為:http://video.baidu.com,主頁(yè)如圖3. 77所示:
圖3. 77 百度視頻搜索引擎的主頁(yè)界面(截取于2010-7)
不同類(lèi)型的多媒體往往具有不同的查詢特征,如對(duì)于視頻而言,字幕信息就是一種極為重要的語(yǔ)義描述信息,畫(huà)質(zhì)和片長(zhǎng)也是常見(jiàn)的查詢字段,這些功能都可以在高級(jí)搜索界面中進(jìn)行選擇。如在Google視頻搜索引擎的“高級(jí)搜索”界面中,查詢談?wù)撝袊?guó)經(jīng)濟(jì)發(fā)展前景的中文短片視頻,設(shè)置界面如圖3. 78所示:
圖3. 78 在Google視頻搜索引擎“高級(jí)搜索”中查詢談?wù)撝袊?guó)經(jīng)濟(jì)發(fā)展前景的中文短片視頻(截取于2010-7)
在查詢結(jié)果中,Google自動(dòng)打開(kāi)“Google百寶箱”從而展示了更多的查詢選擇指標(biāo),如圖3. 79所示:
圖3. 79 在Google視頻搜索引擎中查詢談?wù)撝袊?guó)經(jīng)濟(jì)發(fā)展前景的中文短片視頻的結(jié)果頁(yè)面(截取于2010-7)
1.3.4 地圖搜索引擎
地圖搜索引擎作為一種特殊的搜索引擎,它在現(xiàn)代搜索引擎中的作用越來(lái)越大,很多結(jié)合購(gòu)物、旅游和交友的信息查詢服務(wù)都開(kāi)始與地圖搜索引擎進(jìn)行結(jié)合,從而為用戶提供更為方便和直觀的體驗(yàn)。國(guó)外的Google地圖搜索引擎、國(guó)內(nèi)早期的“圖行天下(Go2map)”[22]都是一些比較有代表性的地圖搜索引擎。
Google地圖搜索引擎是近年來(lái)受到關(guān)注最多的一款。早在2004年,Google就通過(guò)收購(gòu)衛(wèi)星影像提供商Keyhole,使用Keyhole的Quick Bird(捷鳥(niǎo))衛(wèi)星影像,開(kāi)始對(duì)外提供地圖搜索服務(wù)。后來(lái)該項(xiàng)服務(wù)開(kāi)始與生活搜索、移動(dòng)搜索等進(jìn)行結(jié)合,并允許用戶通過(guò)Google地圖搜索引擎提供的專(zhuān)門(mén)方法,可以很方便的將這些地圖查詢功能集成到自己的網(wǎng)站系統(tǒng)中,影響度很快得以擴(kuò)大。它的網(wǎng)址為:http://maps.google.com,主頁(yè)如圖3. 80所示:
圖3. 80 Google地圖搜索引擎的主頁(yè)界面(截取于2010-7)
用戶可以直接在搜索框中輸入所要顯示的城市名稱,中英文都支持,如查詢“北京”的地圖信息,顯示結(jié)果如圖3. 81所示:
圖3. 81 在Google地圖搜索引擎中查詢“北京”的結(jié)果頁(yè)面(截取于2010-7)
用戶可以拖拽地圖左邊的縮放尺來(lái)縮放地圖,還可以點(diǎn)擊地圖右上角的諸如“路況”和“衛(wèi)星”等按鈕來(lái)改變地圖的顯示內(nèi)容,如切換為“衛(wèi)星”視圖后將會(huì)顯示北京城市的衛(wèi)星拍攝地圖,如圖3. 82所示:
圖3. 82 在Google地圖搜索引擎中查詢“北京”的衛(wèi)星地圖頁(yè)面(截取于2010-7)
更為有意思的是,Google地圖還提供了街景瀏覽功能。用戶只需將縮放尺上邊的黃色小人拖拽到地圖上,此時(shí)可以顯示那個(gè)位置的街景照片。對(duì)于有些城市,Google還提供了三維街景視圖,如香港淺水灣地區(qū)的三維街景視圖如圖3. 83所示:
圖3. 83 在Google地圖搜索引擎中查詢“香港淺水灣”的三維街景地圖頁(yè)面(截取于2010-7)
而且,近年來(lái)Google也將很多其他的信息查詢服務(wù)與地圖查詢結(jié)合了起來(lái),如和公交查詢結(jié)合等。如查詢從南京火車(chē)站到南京財(cái)經(jīng)大學(xué)仙林校區(qū)的的士路線,同時(shí)顯示當(dāng)前路況信息,結(jié)果如圖3. 84所示:
圖3. 84 在Google地圖搜索引擎中查詢公交信息和路況信息(截取于2010-7)
[1] 2009-2010年iResearch艾瑞咨詢中國(guó)搜索引擎市場(chǎng)份額報(bào)告. http://www.iresearch.com.cn/Report/1360.html. 2010-3.
[2] 擴(kuò)檢是指擴(kuò)展檢索,意即對(duì)當(dāng)前查詢?cè)~語(yǔ)的語(yǔ)義進(jìn)行分析,找到更為一般的、或者與此相關(guān)的其他查詢?cè)~語(yǔ)來(lái)提供給用戶在做進(jìn)一步查詢時(shí)使用。
[3] Surf是指沖浪,這里意指所謂的網(wǎng)上沖浪,通常上網(wǎng)的用戶也被稱為“沖浪者(Surfer)”。
[4] 所謂搜索造假者,是指一些惡意的網(wǎng)站管理者通過(guò)故意修改網(wǎng)頁(yè)內(nèi)容來(lái)設(shè)法提升自己網(wǎng)頁(yè)在搜索引擎命中結(jié)果中的位置,或者使得用戶在輸入一些常見(jiàn)詞語(yǔ)進(jìn)行查詢的時(shí)候,也能很方便的找到網(wǎng)站管理者自己的網(wǎng)頁(yè)。顯然,這種行為并不公平,而且會(huì)極大影響搜索引擎自身的聲譽(yù)。
[5] 微軟早期推出的搜索引擎也很著名,如MSN Search、Live Search等,2009年微軟推出了Bing(中文名稱是“必應(yīng)”),并同時(shí)停止了原有的那些搜索引擎服務(wù)。
[6] 按點(diǎn)擊付費(fèi)(Pay Per Click)的搜索引擎盈利模式最早是由Goto搜索引擎提出的,它允許網(wǎng)站管理者實(shí)時(shí)進(jìn)行查詢結(jié)果的排序,客戶可以花錢(qián)購(gòu)買(mǎi)排序的位置,通過(guò)拍賣(mài)的形式將相關(guān)網(wǎng)站放在前面,但同時(shí)明確標(biāo)出這個(gè)查詢結(jié)果是付費(fèi)的。這種方式給它帶來(lái)了巨大的收益。2001年,Goto更名為Overture。
[7] googol是美國(guó)數(shù)學(xué)家Edward Kasner的侄子Milton Sirotta創(chuàng)造的一個(gè)詞。
[8] Alpha版和Beta版都是軟件開(kāi)發(fā)中的常見(jiàn)術(shù)語(yǔ)。一般而言,所謂Alpha版是指尚未交付使用的測(cè)試版本,而B(niǎo)eta版是指可以運(yùn)行的最終發(fā)布版本。
[9] Google高價(jià)購(gòu)回中國(guó)域名十九個(gè)字母百萬(wàn). http://www.sh.xinhuanet.com/2005-04/29/content_4156067.htm. 2009-10.
[10] 2010年4月,Google已經(jīng)退出中國(guó)內(nèi)地市場(chǎng),所以域名自動(dòng)定向到香港服務(wù)器下,同樣,此前號(hào)稱最短的域名www.g.cn和中國(guó)域名www.google.cn也都會(huì)自動(dòng)定向過(guò)去。
[11] 微軟的“杜威女士”搜索引擎已于2009年底關(guān)閉服務(wù)。
[12] 在2010年4月2日的Ask主頁(yè)上,我們能夠看到一個(gè)“Question of the Day(每天一問(wèn))”,如“What year brought the most abundant Swiss spaghetti harvest(瑞士面條樹(shù)大豐收是哪一年出現(xiàn)的)?”。這其實(shí)是個(gè)愚人節(jié)玩笑,1957年愚人節(jié)BBC新聞中說(shuō),瑞士的面條樹(shù)大豐收,農(nóng)民都在樹(shù)上收割面條。大量觀眾上當(dāng)受騙,打電話來(lái)咨詢面條樹(shù)的種植方法。BBC對(duì)此的回復(fù)是:把一根面條插在番茄醬里,然后就等著吧。
[13] 從字面看,ESP是指超感覺(jué)的知覺(jué)(Extra-Sensory Perception),即俗稱的第六感。這個(gè)名稱反映了用戶在使用該技術(shù)查詢時(shí),仿佛具有第六感,比較容易獲得自己想要的東西。
[14] Logo中那個(gè)藍(lán)色的圖案是個(gè)熊掌。之所以這樣,據(jù)說(shuō)在創(chuàng)立的時(shí)候,百度開(kāi)發(fā)者覺(jué)得其他的搜索引擎網(wǎng)站太沉悶,而選擇的熊掌則比較俏皮可愛(ài)。話說(shuō)回來(lái),很多其他搜索引擎也常常都有一個(gè)動(dòng)物圖騰,如搜狐有“狐貍”等。
[15] 《搜索引擎—原理、技術(shù)與系統(tǒng)》官方電子版本的下載地址為:http://sewm.pku.edu.cn/book/LxmYhfWjm_v1.0.pdf。
[16] Z. Bar-Yossef and M. Gurevich. Random sampling from a search engine's index. In Proceedings of 15th International World Wide Web Conference, 2006.
[17] Google創(chuàng)始人塞吉?布林(Sergey Brin)就曾經(jīng)發(fā)表過(guò)一篇探討PageRank的經(jīng)典論文《The pagerank citation ranking: Bringing order to the web(PageRank排序方法:給Web帶來(lái)次序)》,斯坦福大學(xué)的數(shù)字圖書(shū)館就有電子全文的下載服務(wù),網(wǎng)址為:http://ilpubs.stanford.edu:8090/422。今天的Google站點(diǎn)還收集著有關(guān)Google技術(shù)細(xì)節(jié)的更多相關(guān)論文,網(wǎng)址為:http://research.google.com/pubs/papers.html。
[18] 1K約為1000個(gè)英文字符,或者500個(gè)漢字字符。
[19] Superpages黃頁(yè)站點(diǎn)的網(wǎng)址為:http://www.superpages.com。
[20] Intelius尋人查詢站點(diǎn)的網(wǎng)址為:http://www.intelius.com。
[21] Idée公司實(shí)驗(yàn)室的網(wǎng)址為:http://labs.ideeinc.com。
[22] 2005年4月12日搜狐收購(gòu)了圖行天下,將其地圖數(shù)據(jù)引入到自己的搜索引擎搜狗之中。