當(dāng)前位置:首頁(yè) >新聞視線(xiàn)
搜索引擎每天處理著數(shù)以?xún)|計(jì)的查詢(xún)請(qǐng)求,每個(gè)查詢(xún)請(qǐng)求都代表了一個(gè)用戶(hù)對(duì)于某種資源的特定需求。多數(shù)時(shí)候,通過(guò)查詢(xún)返回的網(wǎng)頁(yè)結(jié)果,這些需求被滿(mǎn)足了,我們可以認(rèn)為結(jié)果中的某些頁(yè)面對(duì)特定用戶(hù)的特定需求產(chǎn)生了價(jià)值。那么對(duì)于搜索引擎而言,頁(yè)面的價(jià)值是指什么,我們?yōu)槭裁匆芯宽?yè)面價(jià)值?帶著這些疑問(wèn)我們一起來(lái)看下下面的文章:
首先,互聯(lián)網(wǎng)上的頁(yè)面是無(wú)窮盡的,而搜索引擎的硬件資源是有限的,想用有限的資源去覆蓋無(wú)窮盡的互聯(lián)網(wǎng),我們就需要對(duì)頁(yè)面價(jià)值做出判斷,不收錄那些無(wú)檢索價(jià)值的頁(yè)面,少收錄那些檢索價(jià)值低的頁(yè)面。這是頁(yè)面價(jià)值在收錄控制方面的應(yīng)用。
二,搜索引擎spider的抓取能力是有限的,出于訪(fǎng)問(wèn)友好性的考慮,對(duì)于一個(gè)網(wǎng)站或一個(gè)IP抓取速率需要有一個(gè)抓取速率的上限。在這一限制下,抓取或頁(yè)面更新就需要有一個(gè)先后順序,而這一排序的主要參考依據(jù)就是頁(yè)面價(jià)值,或者說(shuō)對(duì)頁(yè)面價(jià)值的預(yù)測(cè)(未抓取時(shí))。這是頁(yè)面價(jià)值在spider調(diào)度方面的應(yīng)用。
三,對(duì)于某些頁(yè)面,頁(yè)面內(nèi)容發(fā)生變化,導(dǎo)致它的檢索價(jià)值從有到無(wú),典型的就是變?yōu)椤八梨湣保蛘摺氨缓凇。?duì)于這些頁(yè)面,好的搜索引擎會(huì)在一時(shí)間將其排除出索引,或在檢索時(shí)對(duì)其進(jìn)行屏蔽,以保證返回給用戶(hù)的結(jié)果是更多檢索價(jià)值高的“好頁(yè)面”。對(duì)于另一些頁(yè)面,它不僅具有很高的檢索價(jià)值,而且有很強(qiáng)的“時(shí)效性”,能夠一時(shí)間讓用戶(hù)檢索到這些頁(yè)面對(duì)搜索體驗(yàn)有很大的提升。對(duì)搜索引擎而言,越快的收錄和索引頁(yè)面意味著越多的額外資源開(kāi)銷(xiāo),以多快的速度收錄和以多短的周期更新索引,需要通過(guò)頁(yè)面價(jià)值的分析來(lái)指導(dǎo)。這兩方面是頁(yè)面價(jià)值在死鏈率和時(shí)效性?xún)纱笏阉饕嬷笜?biāo)提升上的應(yīng)用。
后,普遍意義上的頁(yè)面價(jià)值高低對(duì)搜索引擎返回給用戶(hù)的結(jié)果排序上也存在著指導(dǎo)意義。理想情況下搜索引擎的結(jié)果是按照與查詢(xún)請(qǐng)求的相關(guān)性進(jìn)行排序的,在相關(guān)性大體相當(dāng)?shù)那闆r下,用戶(hù)更傾向與瀏覽普遍意義上頁(yè)面價(jià)值高的網(wǎng)頁(yè)。這是頁(yè)面價(jià)值在ranking方面的應(yīng)用。
可以說(shuō),頁(yè)面檢索價(jià)值的研究是搜索引擎中的一項(xiàng)較為基礎(chǔ)的工作,對(duì)頁(yè)面價(jià)值的認(rèn)識(shí)和判斷的準(zhǔn)確程度直接影響著搜索引擎的覆蓋率、死鏈率、時(shí)效性等幾大主要指標(biāo)。
上面已經(jīng)介紹了頁(yè)面價(jià)值的含義,研究的意義與價(jià)值判斷的方法。后我們?cè)倏匆幌,從技術(shù)角度上,這一方向的研究中的方向。對(duì)頁(yè)面價(jià)值的研究工作主要致力于三方面:
對(duì)頁(yè)面價(jià)值體系的認(rèn)識(shí)。我們目前對(duì)頁(yè)面價(jià)值的認(rèn)識(shí)是來(lái)源于前文所述的四個(gè)維度,這個(gè)認(rèn)識(shí)是否全,對(duì)于不斷變化的互聯(lián)網(wǎng)環(huán)境與用戶(hù)需求,這些維度應(yīng)該如何擴(kuò)展與變化才能更好的服務(wù)于整體的搜索體驗(yàn)提升,是一個(gè)很重要問(wèn)題。
對(duì)于反映頁(yè)面價(jià)值的頁(yè)面特征提取。巧婦難為無(wú)米之炊,挖掘更多的頁(yè)面特征,更準(zhǔn)確合理的特征提取是頁(yè)面價(jià)值判定準(zhǔn)確率提升的基礎(chǔ)。對(duì)各種頁(yè)面特征的組合策略(機(jī)器學(xué)習(xí))。針對(duì)不用的應(yīng)用方向,需要利用相應(yīng)的特征通過(guò)合理的策略擬合出頁(yè)面價(jià)值的終評(píng)價(jià)結(jié)果。
魯公網(wǎng)安備 37090202000024號(hào)
魯ICP備09081715號(hào)-4 Copyright © 2009-2019 Feixun.cc All Rights Reserved 版權(quán)所有:泰安飛訊網(wǎng)絡(luò)科技有限公司