2011-05-27 73 views

回答

4

做的最簡單,最原始的方式,這將是:

  1. 從每個頁面提取前N項(關鍵字)(可通過頻率的前N項,不包括停止的詞語,如簡單「 a,the,an'in English)。這將爲您提供每個頁面的功能集。

  2. 比較頁面之間重疊的頂部術語。您可以使用Wordnet來比較術語的同義詞,例如運動鞋< ==>運動鞋。如果你有一定程度的關鍵字重疊,那麼頁面在某種程度上是相關的。

編輯:

一種更好的方式來獲得關鍵字的功能集爲每個頁面將提取統計顯著字的每一頁。您可以通過從參考文本中獲取或編輯(1 2和3個單詞)n-grams的列表來完成此操作。 wikipedia),然後計算頁面上的單詞/短語的n-gram,並比較n-gram與全局n-gram集合中n-gram的出現頻率。如果您發現網頁上的n-gram發生頻率比您期望給出參考語料庫的頻率更高,那麼它們可能在該頁面上具有統計顯着性。

其中最難的部分是獲取或編譯參考n-gram(它必須足夠大才能在統計上可行),您需要將它與您的網頁上的n-gram進行比較。您可以購買谷歌的n-gram語料庫,或者可以通過免費下載wikipedia等網站來建立自己的語言。如果你在谷歌環顧四周,其他人可能已經發布了一個免費的n-gram集。

1

我個人並沒有使用過它,但我聽說NLTK (Natural Language Toolkit)庫對於這些類型的語言分析任務可以提供很大的幫助。除了大量的語言語料庫和其他數據集以幫助您入門之外,他們還有許多不錯的文檔和教程。

相關問題