TrustRank 算法
TrustRank是近年來(lái)比較受關(guān)注的一種基于鏈接的排名算法。 TrustRank可以翻譯為“信任指數(shù)”。
TrustRank算法最初來(lái)自于2004年斯坦福大學(xué)和雅虎的聯(lián)合研究,用于檢測(cè)垃圾網(wǎng)站,并于2006年獲得專(zhuān)利。TrustRank算法的發(fā)明者還專(zhuān)門(mén)發(fā)表了一份PDF文檔解釋TrustRank算法的應(yīng)用。感興趣的讀者可以在以下網(wǎng)址下載PDF文件:http://www.vldb.org/conf/2004/Rs15P3.PDF
TrustRank算法并不是Google提出的,但是由于Google的市場(chǎng)占有率最大,TrustRank也是Google排名中很重要的一個(gè)因素,所以有人誤認(rèn)為T(mén)rustRank是Google提出的。更讓人迷惑的是,谷歌曾經(jīng)申請(qǐng)過(guò)TrustRank作為商標(biāo),但TrustRank商標(biāo)中的TrustRank指的是谷歌檢測(cè)含有惡意代碼的網(wǎng)站的方法,而不是排名算法中的信任指數(shù)。
TrustRank 算法基于一個(gè)基本假設(shè):好網(wǎng)站(北京網(wǎng)站制作)很少鏈接到壞網(wǎng)站。反之則不然,也就是說(shuō),壞網(wǎng)站很少鏈接到好網(wǎng)站的說(shuō)法是不正確的。相反,很多垃圾網(wǎng)站會(huì)鏈接到權(quán)威度高、信任度高的網(wǎng)站,企圖提高自己的信任度。
基于這樣的假設(shè),如果我們能夠選擇能夠100%信任的網(wǎng)站,那么這些網(wǎng)站的TrustRank將是最高的,而這些TrustRank最高的網(wǎng)站所鏈接的網(wǎng)站仍然會(huì)非常高,即使索引是略低。同樣,二級(jí)可信網(wǎng)站鏈接的三級(jí)網(wǎng)站的信任度繼續(xù)下降。由于種種原因,好的網(wǎng)站難免會(huì)鏈接到一些垃圾網(wǎng)站,但點(diǎn)擊距離越接近一級(jí)網(wǎng)站,傳遞的信任指數(shù)越高,點(diǎn)擊距離越遠(yuǎn),信任度越高。指數(shù)會(huì)更高。會(huì)依次下降。這樣,通過(guò)TrustRank算法,可以為所有網(wǎng)站計(jì)算出相應(yīng)的信任指數(shù)。離一級(jí)網(wǎng)站越遠(yuǎn),成為垃圾網(wǎng)站的可能性就越大。
計(jì)算TrustRank值,首先需要選擇一批種子網(wǎng)站,然后人工檢查網(wǎng)站設(shè)置一個(gè)初始TrustRank值。選擇種子網(wǎng)站有兩種方法。一種是選擇外向鏈接最多的網(wǎng)站,因?yàn)門(mén)rustRank 算法計(jì)算外向鏈接衰減的指數(shù)。導(dǎo)出鏈接多的網(wǎng)站,某種意義上可以理解為具有比較高的“反向PR值”。
另一種選擇種子網(wǎng)站的方法是選擇PR值高的網(wǎng)站,因?yàn)镻R值越高,出現(xiàn)在搜索結(jié)果頁(yè)面的概率就越大。這些網(wǎng)站是TrustRank算法最關(guān)注、需要調(diào)整排名的網(wǎng)站。那些PR值很低的頁(yè)面在沒(méi)有TrustRank算法的情況下排名也很低,TrustRank的計(jì)算意義不大。
據(jù)測(cè)算,通過(guò)選取約200個(gè)網(wǎng)站(高端建站)作為種子,可以更準(zhǔn)確地計(jì)算出所有網(wǎng)站的TrustRank值。
TrustRank隨鏈接關(guān)系遞減的公式有兩種計(jì)算方式。一種是隨著鏈接數(shù)衰減,也就是說(shuō),如果第一層頁(yè)面的TrustRank指數(shù)為100,第二層頁(yè)面衰減到90,第三層衰減到80。第二種計(jì)算方法是賦值TrustRank值是根據(jù)出鏈數(shù)來(lái)計(jì)算的,即如果一個(gè)頁(yè)面的TrustRank值為100,頁(yè)面上有5個(gè)出鏈,每個(gè)鏈接將傳遞TrustRank值的20%。衰減和分配這兩種計(jì)算方法通常結(jié)合使用,總體效果是TrustRank值隨著鏈路級(jí)別的增加而逐漸降低。一旦推導(dǎo)出網(wǎng)站的頁(yè)面和TrustRank 值,排名就會(huì)受到兩種方式的影響。一種是根據(jù)TrustRank值對(duì)傳統(tǒng)排名算法選擇的多個(gè)頁(yè)面進(jìn)行比較,重新調(diào)整排名。另一個(gè)是設(shè)置一個(gè)最小的TrustRank 值閾值。只有超過(guò)此閾值的頁(yè)面才被認(rèn)為具有足夠的質(zhì)量進(jìn)入排名。低于閾值的頁(yè)面將被視為垃圾頁(yè)面并從搜索結(jié)果中過(guò)濾掉。
雖然TrustRank算法最初是作為一種檢測(cè)垃圾郵件的方法,但在目前的搜索引擎排名算法中,TrustRank的概念被更廣泛地使用,往往會(huì)影響大多數(shù)網(wǎng)站的整體排名。 TrustRank 算法最初是針對(duì)頁(yè)面級(jí)別的?,F(xiàn)在在搜索引擎算法中,TrustRank值通常是在域名層面上表示的。整個(gè)域名的信任指數(shù)越高,綜合排名能力越強(qiáng)。
我們專(zhuān)注高端建站,小程序開(kāi)發(fā)、軟件系統(tǒng)定制開(kāi)發(fā)、BUG修復(fù)、物聯(lián)網(wǎng)開(kāi)發(fā)、各類(lèi)API接口對(duì)接開(kāi)發(fā)等。十余年開(kāi)發(fā)經(jīng)驗(yàn),每一個(gè)項(xiàng)目承諾做到滿(mǎn)意為止,多一次對(duì)比,一定讓您多一份收獲!