文章內(nèi)容

搜索引擎原理(七)

發(fā)布時間: 2012/9/3 11:01:51

隨便取一篇網(wǎng)頁的源文件（例如通過瀏覽器的“查看源文件”功能），我們可以看到其中的情況紛亂繁雜。除了我們從瀏覽器中能夠正�？吹降奈淖謨�(nèi)容外，還有大量的HTML標(biāo)記。根據(jù)天網(wǎng)統(tǒng)計，網(wǎng)頁文檔源文件的大小（字節(jié)量）通常大約是其中內(nèi)容大小的 4 倍（例如http://net.pku.edu.cn就是如此�。Ａ硗�，由于 HTML文檔產(chǎn)生來源的多樣性，許多網(wǎng)頁在內(nèi)容上比較隨意，不僅文字不講究規(guī) 范、完整，而且還可能包含許多和主要內(nèi)容無關(guān)的信息（例如廣告，導(dǎo)航條，版權(quán)說明等）。這些情況既給有效的信息查詢帶來了挑戰(zhàn)，也帶來了一些新的機(jī)遇，在后面的章節(jié)將會有進(jìn)一步的論述。這里我們只是指出，為了支持后面的查詢服務(wù)，需要從網(wǎng)頁源文件中提取出能夠代表它的內(nèi)容的一些特征。從人們現(xiàn)在的認(rèn) 識和實踐來看，所含的關(guān)鍵詞即為這種特征最好的代表。于是，作為預(yù)處理階段的一個基本任務(wù)，就是要提取出網(wǎng)頁源文件的內(nèi)容部分所含的關(guān)鍵詞。對于中文來說，就是要根據(jù)一個詞典Σ，用一個所謂“切詞軟件”，從網(wǎng)頁文字中切出Σ所含的詞語來。在那之后，一篇網(wǎng)頁主要就由一組詞來近似代表了，p = {t , t , …, t }。 1 2 n 一般來講，我們可能得到很多詞，同一個詞可能在一篇網(wǎng)頁中多次出現(xiàn)。從效果 (effectiveness)和效率（efficiency ）考慮，不應(yīng)該讓所有的詞都出現(xiàn)在網(wǎng)頁的表示中，要去掉諸如“的”，“在”等沒有內(nèi)容指示意義的詞，稱為“停用詞”(stop word)。這樣，對一篇網(wǎng)頁來說，有效的詞語數(shù)量大約在200 個左右。 2. 重復(fù)或轉(zhuǎn)載網(wǎng)頁的消除與生俱來的數(shù)字化和網(wǎng)絡(luò)化給網(wǎng)頁的復(fù)制以及轉(zhuǎn)載和修改再發(fā)表帶來了便利，因此我們看到 Web 上的信息存在大量的重復(fù)現(xiàn)象。天網(wǎng)在 2003 年的一次大規(guī)模統(tǒng)計分析表明，網(wǎng)頁的重復(fù)率平均大約為4。也就是說，當(dāng)你通過一個URL 在網(wǎng)上看到一篇網(wǎng)頁的時候，平均還有另外 3 個不同的 URL 也給出相同或者基本相似的內(nèi)容。這種現(xiàn)象對于廣大的網(wǎng)民來說是有正面意義的，因為有了更多的信息訪問機(jī)會。但對于搜索引擎來說，則主要是負(fù)面的；它不僅在搜集網(wǎng)頁時要消耗機(jī)器時間和網(wǎng)絡(luò)帶寬資源，而且如果在查詢結(jié)果中出現(xiàn)，無意義地消耗了計算機(jī)顯示屏資源，也會引來用戶的抱怨，“這么多重復(fù)的，給我一個就夠了”。因此，消除內(nèi)容重復(fù)或主題內(nèi)容重復(fù)的網(wǎng)頁是預(yù)處理階段的一個重要任務(wù)。第七章對此有詳細(xì)的分析論述。 3. 鏈接分析前面提到，大量的HTML 標(biāo)記既給網(wǎng)頁的預(yù)處理造成了一些麻煩，也帶來了一些新的機(jī)遇。從信息檢索的角度講，如果系統(tǒng)面對的僅僅是內(nèi)容的文字，我們能依據(jù)的就是“共有詞匯假設(shè)” （shared bag of words），即內(nèi)容所包含的關(guān)鍵詞集合，最多加上詞頻（term frequency 或 tf、TF）和詞在文檔集合中出現(xiàn)的文檔頻率（document frequency 或df、DF）之類的統(tǒng)計量。而TF 和DF 這樣的頻率信

本文出自：億恩科技【www.allwellnessguide.com】

服務(wù)器租用/服務(wù)器托管中國五強(qiáng)！虛擬主機(jī)域名注冊頂級提供商！15年品質(zhì)保障！--億恩科技[ENKJ.COM]

同類文章

·　Win7怎樣關(guān)閉UAC
·　防范入侵修改"遠(yuǎn)程終端服
·　ASP網(wǎng)站漏洞解析及黑客入
·　ASP網(wǎng)站漏洞解析及黑客入
·　IP網(wǎng)絡(luò)攻擊手段和安全策略
·　網(wǎng)絡(luò)流量和網(wǎng)絡(luò)帶寬的區(qū)別
·　什么是網(wǎng)絡(luò)流量
·　服務(wù)器的使用誤區(qū)及正確使用
·　站長托管服務(wù)器之前必做的六
·　什么是虛擬主機(jī)？
·　服務(wù)器慢怎么辦？？
·　無盤啟動工作原理及其分類
·　什么是遠(yuǎn)程訪問服務(wù)器
·　計算機(jī)網(wǎng)絡(luò)的帶寬的概念
·　WDS（無線分布式系統(tǒng)）加
·　VPN是什么
·　負(fù)載均衡是什么
·　Ping一下網(wǎng)絡(luò)故障早知
·　北京IDC專家北京最好的
·　seoer如何優(yōu)化行業(yè)網(wǎng)站

亚洲Aⅴ无码Av红楼在线观看_国产午夜福利涩爱AⅤ_国产sm调教一区二区三区_精品人妻一区二区三区不卡毛片

服務(wù)器租用

服務(wù)器托管

機(jī)柜批發(fā)

云服務(wù)器

建站俠

空間/域名

安全保姆

幫助類別

幫助中心

文章內(nèi)容

搜索引擎原理(七)

同類文章

億恩公告

在線客服