2011-05-08 21 views
1

我想知道什麼是定義字典來計算特定網站的相關性的最佳方法。至少包含單詞的詞典似乎是衡量通過鏈接找到的新網站的相關性的重要方法(例如,如果一個網站被鏈接到,但它不包含關於足球的任何詞,那麼它可能與我的足球爬行者無關)。如何定義與主題相關的抓取工具字典?

我來到了以下的想法,但他們都有重大缺陷:

  • 手工編寫一本字典 - >你可能會忘記很多的話,這是非常耗時
  • 拿從第一個網站的詞作爲詞典最重要的詞 - >很多詞可能會丟失
  • 把所有網站上最重要的單詞作爲字典中的條目,並通過相關性加權(例如,只有相關的網站0.4會對詞典沒有如此大的影響,因爲它是一個相關的網站0.8) - >似乎很合適並可能導致意想不到的結果

最後一種方法似乎是最好的,但也許有更好,更常見的方法?

回答

1

我建議您從已知網站列表中建立一個常用單詞詞典。假設你有100個網站,而你知道他們都在談論足球。您可以構建內容的單字格和雙格(或n-gram)映射,並將其用作衡量某種類型的「偏差」的基準,這些偏差涉及您所做的每個新觀察。請注意,您必須刪除常用的停用詞以消除不相關的詞;英語中有很多,這裏有一個列表:http://www.ranks.nl/resources/stopwords.html

N-grams是單詞或單詞組合的頻率計數。 Unigrams創建一個映射,其中鍵是單詞,值是每個單詞的出現次數。 Bigrams通常是通過組合兩個連續的單詞並將它們用作關鍵字來構造的,對於trigrams和n-gram也是如此。

您可以從已知網站獲取最高n-gram,並將其與您當前正在評估的網站的最高n-grams進行比較。它們越相似,網站就越有可能具有相同的主題。