搜索引擎原理(六) |
發(fā)布時(shí)間: 2012/9/3 11:01:43 |
搜索引擎是不可能將Web上的網(wǎng)頁(yè)搜集完全的,通常都是在其他條件的限制下決 定搜集過(guò)程的結(jié)束(例如磁盤滿,或者搜集時(shí)間已經(jīng)太長(zhǎng)了)。因此就有一個(gè)盡量 使搜到的網(wǎng)頁(yè)比較重要的問(wèn)題,這對(duì)于那些并不追求很大的數(shù)量覆蓋率的搜索引 擎特別重要。研究表明[Najork and Wiener,2001],按照先寬搜索方式得到的網(wǎng)頁(yè)集 合要比先深搜索得到的集合重要(這里當(dāng)然有一個(gè)重要性的指標(biāo)問(wèn)題)。這種方式 的一個(gè)困難是要從每一篇網(wǎng)頁(yè)中提取出所含的URL 。由于HTML的靈活性,其中 出現(xiàn)URL的方式各種各樣,將這個(gè)環(huán)節(jié)做得徹底不容易(例如我們現(xiàn)在還沒(méi)有很 好的簡(jiǎn)單辦法從JavaScript腳本中提取URL )。同時(shí),由于Web的“蝴蝶結(jié)”形狀 [Broder, et al.,2000],這種方式搜集到的網(wǎng)頁(yè)不大會(huì)超過(guò)所有目標(biāo)網(wǎng)頁(yè)數(shù)量2 的2/3。 另外一種可能的方式是在第一次全面網(wǎng)頁(yè)搜集后,系統(tǒng)維護(hù)相應(yīng)的 URL 集 合 S,往后的搜集直接基于這個(gè)集合。每搜到一個(gè)網(wǎng)頁(yè),如果它發(fā)生變化并含有 新的URL,則將它們對(duì)應(yīng)的網(wǎng)頁(yè)也抓回來(lái),并將這些新URL 也放到集合S 中; 如果 S 中某個(gè)url 對(duì)應(yīng)的網(wǎng)頁(yè)不存在了,則將它從 S 中刪除。這種方式也可以看 成是一種極端的先寬搜索,即第一層是一個(gè)很大的集合,往下最多只延伸一層。 還有一種方法是讓網(wǎng)站擁有者主動(dòng)向搜索引擎提交它們的網(wǎng)址(為了宣傳自 己,通常會(huì)有這種積極性),系統(tǒng)在一定時(shí)間內(nèi)(2 天到數(shù)月不等)定向向那些網(wǎng) 站派出“蜘蛛”程序,掃描該網(wǎng)站的所有網(wǎng)頁(yè)并將有關(guān)信息存入數(shù)據(jù)庫(kù)中。大型 商業(yè)搜索引擎一般都提供這種功能。 第三節(jié) 預(yù)處理 得到海量的原始網(wǎng)頁(yè)集合,距離面向網(wǎng)絡(luò)用戶的檢索服務(wù)之間還有相當(dāng)?shù)木?離。宏觀地看,服務(wù)子系統(tǒng)是一個(gè)程序。采用Wirth 關(guān)于“程序 = 算法+數(shù)據(jù)結(jié) 構(gòu)”的觀點(diǎn)來(lái)考察這個(gè)程序,一個(gè)合適的數(shù)據(jù)結(jié)構(gòu)是查詢子系統(tǒng)工作的核心和關(guān) 鍵。這里只是指出:現(xiàn)行最有效的數(shù)據(jù)結(jié)構(gòu)是“倒排文件”(inverted file);倒排 文件是用文檔中所含關(guān)鍵詞作為索引,文檔作為索引目標(biāo)的一種結(jié)構(gòu)(類似于普 通書籍中,索引是關(guān)鍵詞,書的頁(yè)面是索引目標(biāo))。我們?cè)诘诎苏轮杏羞M(jìn)一步分析。 下面討論從網(wǎng)頁(yè)集合形成這樣的倒排文件過(guò)程中的幾個(gè)主要問(wèn)題,即我們所說(shuō)的 “預(yù)處理”。主要包括四個(gè)方面,關(guān)鍵詞的提取,“鏡像網(wǎng)頁(yè)”(網(wǎng)頁(yè)的內(nèi)容完全相 同,未加任何修改)或“轉(zhuǎn)載網(wǎng)頁(yè)”(near-replicas,主題內(nèi)容基本相同但可能有 一些額外的編輯信息等,轉(zhuǎn)載網(wǎng)頁(yè)也稱為“近似鏡像網(wǎng)頁(yè)”)的消除,鏈接分析和 網(wǎng)頁(yè)重要程度的計(jì)算。 1.關(guān)鍵詞的提取 2 所謂“目標(biāo)網(wǎng)頁(yè)”指的是搜索引擎設(shè)計(jì)覆蓋的網(wǎng)頁(yè)范圍。例如Google是全球,天網(wǎng)是全中國(guó)。 本文出自:億恩科技【www.allwellnessguide.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |