2015-05-29 32 views
0

我是IR新手,我想計算網頁的tf-idf。爲網頁計算tf-idf

對於「tf」部分,我想計算一個網頁內容中每個單詞的頻率。

對於「idf」部分,我想比較多個網頁的內容。

是否有工具/ API可以幫助解決這個問題?任何平臺都可以。有人可以解釋我該如何實現這一目標?

謝謝大家。

回答

0

您需要先使用諸如Lucene之類的工具爲一組網頁建立索引。這些索引框架會爲你創造兩件事...首先是一個倒排索引,即一個詞語出現的文檔列表(類似於一本書的索引,對於每一個重要的詞語,一個列表被存儲表示這些術語出現在哪些頁面中)...這照顧tf部分......第二個是收集統計,其存儲全局(而不是每個文檔)統計,諸如文檔頻率(在多少文檔中 一個術語出現)等。

然後在檢索階段使用這兩個文件返回排名靠前的文檔列表。這是Lucene上的一個不錯的tutorial,它可以幫助你開始。特別有用的是類的IndexWriterStandardAnalyzer文獻IndexSearcher的BM25Similarity