第二代 google排名搜索引擎雖然比第一代在搜索速度、針對(duì)多種語言信息的擴(kuò)展等方面有所改進(jìn),在以自然語言為查詢語言方面也做了一些探索。然而,隨著Internet的強(qiáng)勢(shì)發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾日益突出。IDC在2001年下半年公布的一份報(bào)告表明,前期被大肆宣傳為“使用簡便易用,搜索結(jié)果豐富”的google排名搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因?yàn)榇蠖鄶?shù)搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長的視頻、音頻等多媒體信息的檢索,現(xiàn)在仍然是無法突破的難題。
一般的公共搜索引擎只能查到HTML格式,主要的原因是搜索引擎的自動(dòng)排序軟件Spiders蜘蛛程序,只能接受這種格式的網(wǎng)頁。這意味著,在企業(yè)內(nèi)部的局域網(wǎng)上,任何沒有使用HTML格式的信息將無法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應(yīng)用軟件的數(shù)據(jù)庫的信息會(huì)長期的“沉沒”在信息的海底中。
如何解決這些難題已成為第三代搜索引擎探索的方向。一個(gè)好的搜索引擎不再僅憑借數(shù)據(jù)庫大小、更新頻率、檢索速度、對(duì)多語言的支持這幾個(gè)基本特性來衡量,隨著數(shù)據(jù)庫容量的不斷膨脹,如何從龐大的資料庫中精確地找到正確的資料,被公認(rèn)為是下一代搜索技術(shù)的競爭要點(diǎn)。比如在某搜索引擎中查詢“旅游”這個(gè)詞,返回的信息超過一百萬條,假定一個(gè)人3秒鐘查看一個(gè)網(wǎng)頁,就算只查看其中10%的網(wǎng)頁,一刻不停地看下去也需要十多個(gè)小時(shí)。
好在google排名搜索引擎技術(shù)發(fā)展迅速,諸如智能化、個(gè)性化特色的新型引擎與過去的搜索引擎相比有了很大的區(qū)別。智能搜索可以通過對(duì)搜索內(nèi)容相關(guān)性的自動(dòng)學(xué)習(xí),來提高搜索結(jié)果的準(zhǔn)確度。不過,現(xiàn)在還沒有一種可行的方式真正實(shí)現(xiàn)智能化,很難將所需信息一定顯示在前兩三頁的搜索結(jié)果之中。
另一個(gè)頗受矚目的搜索技術(shù)就是將P2P技術(shù)應(yīng)用到網(wǎng)頁的檢索中。通過共享所有硬盤上的文件、目錄乃至整個(gè)硬盤,用戶搜索時(shí)無需通過Web服務(wù)器,不受信息文檔格式的限制,即可達(dá)到傳統(tǒng)目錄式搜索引擎無可比擬的深度(傳統(tǒng)引擎只能達(dá)到20%~30%的網(wǎng)絡(luò)資源)。美國一家新興搜索引擎設(shè)計(jì)公司i5 Digital在兩年前已正式推出了依據(jù)對(duì)等搜索理念的商業(yè)性搜索引擎Pandango(www.pandango.com),但至今仍未進(jìn)入主流搜索引擎陣容的事實(shí),則說明P2P搜索目前也只能稱為是未來的技術(shù)。
“P2P搜索這個(gè)理念我最早是1997年底在Infoseek聽到的,當(dāng)時(shí)的Infoseek里已經(jīng)有人提出并開始考慮這種google排名搜索技術(shù)了”,李彥宏表示,“各個(gè)網(wǎng)站上都有一個(gè)自己的小的搜索引擎,大家相互之間可以進(jìn)行溝通,如果這個(gè)引擎查不到,可以通過其他的引擎查,就是這樣的一個(gè)概念。但是到目前為止,它離實(shí)際的應(yīng)用還差得非常遠(yuǎn),主要是違反了關(guān)鍵性指標(biāo)中有關(guān)速度的問題。由于有很多這種小的相互獨(dú)立又相互鏈接的引擎,其速度與集中式管理的搜索引擎相比肯定會(huì)差很多”。
商業(yè)應(yīng)用與學(xué)術(shù)研究之間總會(huì)存在一定的距離,但這并不是表示商業(yè)界不重視對(duì)技術(shù)的追求,尤其是像Google這些已經(jīng)處于該領(lǐng)域金字塔塔尖的公司。Google擁有一個(gè)開放性數(shù)據(jù)庫,內(nèi)含一百多個(gè)未來需要實(shí)施的項(xiàng)目,這些項(xiàng)目由五十位計(jì)算機(jī)科學(xué)博士負(fù)責(zé)推進(jìn)。2002年6月,Google專門成立了“實(shí)驗(yàn)室”,以展示他們?cè)诨ヂ?lián)網(wǎng)搜索領(lǐng)域里最新研究的技術(shù),并發(fā)布在互聯(lián)網(wǎng)(labs.Google.com)上供公眾試用,廣泛收集用戶的反饋意見。實(shí)驗(yàn)室里已經(jīng)展示的項(xiàng)目,包括鍵盤檢索、語音檢索等等。
或許有些人會(huì)認(rèn)為,這些所謂的實(shí)驗(yàn)項(xiàng)目似乎看不出搜索引擎技術(shù)將在觀念上進(jìn)行大的轉(zhuǎn)變,實(shí)際上,搜索引擎技術(shù)在8年多的時(shí)間里一直是以一個(gè)漸變的過程在發(fā)展。“一個(gè)搜索引擎并不是說某一方面好就能受大眾喜歡,必須方方面面做到了才行”,李彥宏這么認(rèn)為,“現(xiàn)在搜索還不能完全滿足人們的需求,因?yàn)樾枨筇鄻踊茈y一一滿足”。這也是主流搜索引擎目前更重視在細(xì)節(jié)上下功夫的原因。
無論如何,包括Google的佩杰在內(nèi)的搜索技術(shù)領(lǐng)域的領(lǐng)先者都認(rèn)為,最終的搜索引擎將是智能化的,能夠理解世界上的所有事物。佩杰還是Web服務(wù)技術(shù)領(lǐng)域積極的參與者,他正在嘗試將Web服務(wù)技術(shù)應(yīng)用到搜索當(dāng)中,以解決跨平臺(tái)、多格式的信息檢索。而我們現(xiàn)在所見到的,主流搜索技術(shù)把注意力集中在提升自身搜索引擎質(zhì)量、擴(kuò)展應(yīng)用范圍,比如支持圖片檢索、PDA等移動(dòng)手持設(shè)備的檢索,這些都將成為下一代技術(shù)實(shí)現(xiàn)過程中必不可少的步驟。
地 址:北京市海淀區(qū)建材城中路12號(hào)院17號(hào)樓1層119室
武漢分公司地址:湖北省武漢市洪山區(qū)南國雄楚廣場(chǎng)A4棟2011室
鄭州分公司地址:河南鄭州金水區(qū)東風(fēng)路科技市場(chǎng)對(duì)面米蘭陽光6號(hào)樓917室
郵 箱:haidanet@163.com
24小時(shí)聯(lián)系電話: 15201609116 13651084380