2011-10-16 47 views
4

我正在尋找能夠呈現單個網頁重要性的算法/技巧。把PageRank放在一邊,有沒有其他的方法可以根據內容,結構和超鏈接進行評分?評級網站算法/技術(PageRank放在一邊)

我不僅在討論從www.foo.com到www.bar.com的連接,而且還從www.foo.com/bar到www.foo.com/baz等等(適應這些需求的PageRank)

如何「定義」的重要性的事實旁邊:我認爲重要的在這方面爲「重要這是怎麼側到用戶,以及它是如何重要該網站的其餘部分「。
例如聖誕節抽獎在首頁上公佈,只有通往本網站的單個鏈接對用戶和網站都更爲重要。從每個網站鏈接(因爲它主要在頁腳的某個地方)的印記並不重要,儘管它有很多鏈接。對於網站來說,版本說明並不重要,因爲它不會爲網頁的版權(=提供信息,銷售產品,一般服務等)提供任何實際價值。

回答

1

還有SALSA這比HITS更穩定[因此它受垃圾郵件影響較小]。

既然你也有興趣的頁面背景下,您可能希望對Haveliwala的作品一看就topic sensitive page rank

+0

你貼的漂亮的文件,我正在看着它們。聽起來非常有趣,謝謝 – DrColossos

1

另一個着名的算法是Hubs and Authorities (HITS) 。基本上,您可以將您的頁面分類爲Hub(具有大量出站鏈接的頁面)和權威(具有大量入站鏈接的頁面)。

但是你應該真正定義你的重要性。真正重要的是什麼意思? PageRank對入站鏈接進行了定義。那就是PageRank的定義。

如果您將重要的定義爲有照片,因爲您喜歡攝影。然後你可以拿出重要的度量,如頁面中的照片數量。另一個標準可能是入站鏈接從攝影網站數量(如flickr.com500px ...)

使用您的重要定義,你可以使用`1-(分入站鏈接的數量按網站上的頁數)。這給你一個介於0和1之間的數字。0意味着不重要,1意味着重要。

使用這個指標的印記,它出現在網站的所有頁面,有0你的聖誕銷售頁面,該頁面只有一個鏈接到它的重要性,具有重要意義幾乎1

+0

好點,我加的什麼,我認爲「重要」的說明。也會研究HITS。感謝您的意見。 – DrColossos

+0

我爲您的「重要」描述添加了一個度量函數。不太確定這是你想要的。 – Pierre