搜索引擎原理(七) |
發(fā)布時間: 2012/9/3 11:01:51 |
隨便取一篇網(wǎng)頁的源文件(例如通過瀏覽器的“查看源文件”功能),我們 可以看到其中的情況紛亂繁雜。除了我們從瀏覽器中能夠正?吹降奈淖謨(nèi)容外, 還有大量的HTML標(biāo)記。根據(jù)天網(wǎng)統(tǒng)計,網(wǎng)頁文檔源文件的大小(字節(jié)量)通常 大約是其中內(nèi)容大小的 4 倍(例如http://net.pku.edu.cn就是如此。A硗,由于 HTML文檔產(chǎn)生來源的多樣性,許多網(wǎng)頁在內(nèi)容上比較隨意,不僅文字不講究規(guī) 范、完整,而且還可能包含許多和主要內(nèi)容無關(guān)的信息(例如廣告,導(dǎo)航條,版 權(quán)說明等)。這些情況既給有效的信息查詢帶來了挑戰(zhàn),也帶來了一些新的機(jī)遇, 在后面的章節(jié)將會有進(jìn)一步的論述。這里我們只是指出,為了支持后面的查詢服 務(wù),需要從網(wǎng)頁源文件中提取出能夠代表它的內(nèi)容的一些特征。從人們現(xiàn)在的認(rèn) 識和實踐來看,所含的關(guān)鍵詞即為這種特征最好的代表。于是,作為預(yù)處理階段 的一個基本任務(wù),就是要提取出網(wǎng)頁源文件的內(nèi)容部分所含的關(guān)鍵詞。對于中文 來說,就是要根據(jù)一個詞典Σ,用一個所謂“切詞軟件”,從網(wǎng)頁文字中切出Σ所 含的詞語來。在那之后,一篇網(wǎng)頁主要就由一組詞來近似代表了,p = {t , t , …, t }。 1 2 n 一般來講,我們可能得到很多詞,同一個詞可能在一篇網(wǎng)頁中多次出現(xiàn)。從效果 (effectiveness)和效率 (efficiency )考慮,不應(yīng)該讓所有的詞都出現(xiàn)在網(wǎng)頁的表示 中,要去掉諸如“的”,“在”等沒有內(nèi)容指示意義的詞,稱為“停用詞”(stop word)。 這樣,對一篇網(wǎng)頁來說,有效的詞語數(shù)量大約在200 個左右。 2. 重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除 與生俱來的數(shù)字化和網(wǎng)絡(luò)化給網(wǎng)頁的復(fù)制以及轉(zhuǎn)載和修改再發(fā)表帶來了便 利,因此我們看到 Web 上的信息存在大量的重復(fù)現(xiàn)象。天網(wǎng)在 2003 年的一次大 規(guī)模統(tǒng)計分析表明,網(wǎng)頁的重復(fù)率平均大約為4。也就是說,當(dāng)你通過一個URL 在網(wǎng)上看到一篇網(wǎng)頁的時候,平均還有另外 3 個不同的 URL 也給出相同或者基 本相似的內(nèi)容。這種現(xiàn)象對于廣大的網(wǎng)民來說是有正面意義的,因為有了更多的 信息訪問機(jī)會。但對于搜索引擎來說,則主要是負(fù)面的;它不僅在搜集網(wǎng)頁時要 消耗機(jī)器時間和網(wǎng)絡(luò)帶寬資源,而且如果在查詢結(jié)果中出現(xiàn),無意義地消耗了計 算機(jī)顯示屏資源,也會引來用戶的抱怨,“這么多重復(fù)的,給我一個就夠了”。因 此,消除內(nèi)容重復(fù)或主題內(nèi)容重復(fù)的網(wǎng)頁是預(yù)處理階段的一個重要任務(wù)。第七章 對此有詳細(xì)的分析論述。 3. 鏈接分析 前面提到,大量的HTML 標(biāo)記既給網(wǎng)頁的預(yù)處理造成了一些麻煩,也帶來了 一些新的機(jī)遇。從信息檢索的角度講,如果系統(tǒng)面對的僅僅是內(nèi)容的文字,我們 能依據(jù)的就是“共有詞匯假設(shè)” (shared bag of words),即內(nèi)容所包含的關(guān)鍵詞集 合,最多加上詞頻(term frequency 或 tf、TF)和詞在文檔集合中出現(xiàn)的文檔頻 率(document frequency 或df、DF)之類的統(tǒng)計量。而TF 和DF 這樣的頻率信 本文出自:億恩科技【www.allwellnessguide.com】 服務(wù)器租用/服務(wù)器托管中國五強(qiáng)!虛擬主機(jī)域名注冊頂級提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |