搜索引擎原理(四) |
發(fā)布時(shí)間: 2012/9/3 11:01:36 |
本章介紹搜索引擎的基本工作原理和它作為一種網(wǎng)絡(luò)應(yīng)用軟件的體系結(jié)構(gòu)。 在后面的三章中,我們將以一個(gè)實(shí)際的例子,具體展開(kāi)在這些原理基礎(chǔ)上實(shí)現(xiàn)的 一種方案。通過(guò)這幾章學(xué)習(xí),讀者將得到一個(gè)可實(shí)際運(yùn)行搜索引擎的實(shí)現(xiàn)細(xì)節(jié)。 第一節(jié) 基本要求 如在第一章第二節(jié)所述,搜索引擎是一個(gè)網(wǎng)絡(luò)應(yīng)用軟件系統(tǒng), 對(duì)它有如下基本要求。 能夠接受用戶通過(guò)瀏覽器提交的查詢?cè)~或者短語(yǔ),記作q,例如“非典”,“伊 拉克戰(zhàn)爭(zhēng)”,“床前明月光”等等。 在一個(gè)可以接受的時(shí)間內(nèi)返回一個(gè)和該用戶查詢匹配的網(wǎng)頁(yè)信息列表,記作 L 。上一章講過(guò),這個(gè)列表的每一條目至少包含三個(gè)元素(標(biāo)題,網(wǎng)址鏈接,摘 要)。 q ,q ,… L ,L ,… 1 2 1 2 搜索引擎 網(wǎng)頁(yè)數(shù)據(jù)庫(kù) 圖2-1 搜索引擎示意圖 這里有幾個(gè)問(wèn)題需要注意,它們對(duì)應(yīng)上面黑體的文字: “可以接受的時(shí)間”,也就是響應(yīng)時(shí)間。對(duì)于在Web 上面向廣大用戶提供服 務(wù)的軟件來(lái)說(shuō),這個(gè)時(shí)間不能太長(zhǎng),通常也就在“秒”這個(gè)量級(jí)。這是衡量搜索 引擎可用性的一個(gè)基本指標(biāo),也是和傳統(tǒng)信息檢索系統(tǒng)的一個(gè)差別。更進(jìn)一步的, 這樣的響應(yīng)時(shí)間要求不僅要能滿足單個(gè)用戶查詢,而且要能在系統(tǒng)設(shè)計(jì)負(fù)載的情 況下滿足所有的用戶。也就是說(shuō),系統(tǒng)應(yīng)該在額定吞吐率的情況下保證秒級(jí)響應(yīng) 時(shí)間。這其中詳細(xì)的分析將在中篇第八章展開(kāi)。 “匹配”,指的是網(wǎng)頁(yè)中以某種形式包含有q 的內(nèi)容,其中最簡(jiǎn)單、最常見(jiàn) 本文出自:億恩科技【www.allwellnessguide.com】 服務(wù)器租用/服務(wù)器托管中國(guó)五強(qiáng)!虛擬主機(jī)域名注冊(cè)頂級(jí)提供商!15年品質(zhì)保障!--億恩科技[ENKJ.COM] |