搜索引擎原理(七) |
發(fā)布時(shí)間: 2012/9/3 11:01:52 |
隨便取一篇網(wǎng)頁(yè)的源文件(例如通過(guò)瀏覽器的“查看源文件”功能),我們 可以看到其中的情況紛亂繁雜。除了我們從瀏覽器中能夠正?吹降奈淖謨(nèi)容外, 還有大量的HTML標(biāo)記。根據(jù)天網(wǎng)統(tǒng)計(jì),網(wǎng)頁(yè)文檔源文件的大。ㄗ止(jié)量)通常 大約是其中內(nèi)容大小的 4 倍(例如http://net.pku.edu.cn就是如此。。另外,由于 HTML文檔產(chǎn)生來(lái)源的多樣性,許多網(wǎng)頁(yè)在內(nèi)容上比較隨意,不僅文字不講究規(guī) 范、完整,而且還可能包含許多和主要內(nèi)容無(wú)關(guān)的信息(例如廣告,導(dǎo)航條,版 權(quán)說(shuō)明等)。這些情況既給有效的信息查詢帶來(lái)了挑戰(zhàn),也帶來(lái)了一些新的機(jī)遇, 在后面的章節(jié)將會(huì)有進(jìn)一步的論述。這里我們只是指出,為了支持后面的查詢服 務(wù),需要從網(wǎng)頁(yè)源文件中提取出能夠代表它的內(nèi)容的一些特征。從人們現(xiàn)在的認(rèn) 識(shí)和實(shí)踐來(lái)看,所含的關(guān)鍵詞即為這種特征最好的代表。于是,作為預(yù)處理階段 的一個(gè)基本任務(wù),就是要提取出網(wǎng)頁(yè)源文件的內(nèi)容部分所含的關(guān)鍵詞。對(duì)于中文 來(lái)說(shuō),就是要根據(jù)一個(gè)詞典Σ,用一個(gè)所謂“切詞軟件”,從網(wǎng)頁(yè)文字中切出Σ所 含的詞語(yǔ)來(lái)。在那之后,一篇網(wǎng)頁(yè)主要就由一組詞來(lái)近似代表了,p = {t , t , …, t }。 1 2 n 一般來(lái)講,我們可能得到很多詞,同一個(gè)詞可能在一篇網(wǎng)頁(yè)中多次出現(xiàn)。從效果 (effectiveness)和效率 (efficiency )考慮,不應(yīng)該讓所有的詞都出現(xiàn)在網(wǎng)頁(yè)的表示 中,要去掉諸如“的”,“在”等沒(méi)有內(nèi)容指示意義的詞,稱為“停用詞”(stop word)。 這樣,對(duì)一篇網(wǎng)頁(yè)來(lái)說(shuō),有效的詞語(yǔ)數(shù)量大約在200 個(gè)左右。 2. 重復(fù)或轉(zhuǎn)載網(wǎng)頁(yè)的消除 與生俱來(lái)的數(shù)字化和網(wǎng)絡(luò)化給網(wǎng)頁(yè)的復(fù)制以及轉(zhuǎn)載和修改再發(fā)表帶來(lái)了便 利,因此我們看到 Web 上的信息存在大量的重復(fù)現(xiàn)象。天網(wǎng)在 2003 年的一次大 規(guī)模統(tǒng)計(jì)分析表明,網(wǎng)頁(yè)的重復(fù)率平均大約為4。也就是說(shuō),當(dāng)你通過(guò)一個(gè)URL 在網(wǎng)上看到一篇網(wǎng)頁(yè)的時(shí)候,平均還有另外 3 個(gè)不同的 URL 也給出相同或者基 本相似的內(nèi)容。這種現(xiàn)象對(duì)于廣大的網(wǎng)民來(lái)說(shuō)是有正面意義的,因?yàn)橛辛烁嗟?信息訪問(wèn)機(jī)會(huì)。但對(duì)于搜索引擎來(lái)說(shuō),則主要是負(fù)面的;它不僅在搜集網(wǎng)頁(yè)時(shí)要 消耗機(jī)器時(shí)間和網(wǎng)絡(luò)帶寬資源,而且如果在查詢結(jié)果中出現(xiàn),無(wú)意義地消耗了計(jì) 算機(jī)顯示屏資源,也會(huì)引來(lái)用戶的抱怨,“這么多重復(fù)的,給我一個(gè)就夠了”。因 此,消除內(nèi)容重復(fù)或主題內(nèi)容重復(fù)的網(wǎng)頁(yè)是預(yù)處理階段的一個(gè)重要任務(wù)。第七章 對(duì)此有詳細(xì)的分析論述。 3. 鏈接分析 前面提到,大量的HTML 標(biāo)記既給網(wǎng)頁(yè)的預(yù)處理造成了一些麻煩,也帶來(lái)了 一些新的機(jī)遇。從信息檢索的角度講,如果系統(tǒng)面對(duì)的僅僅是內(nèi)容的文字,我們 能依據(jù)的就是“共有詞匯假設(shè)” (shared bag of words),即內(nèi)容所包含的關(guān)鍵詞集 合,最多加上詞頻(term frequency 或 tf、TF)和詞在文檔集合中出現(xiàn)的文檔頻 率(document frequency 或df、DF)之類的統(tǒng)計(jì)量。而TF 和DF 這樣的頻率信 本文出自:億恩科技【www.allwellnessguide.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |