非常感謝您在TF/IDF網站上提供的幫助。它幫助我很多在Java中使用tf-idf函數。我做了tf,但我有一個問題。就像他們在wiki上寫的那樣,IDF可以計算出有多少文檔有這個詞。但我很困惑。如何計算IDF?
例如,這裏是字符串「JosAH很棒,JoshAH岩石」,所以TF將是2/5,IDF有兩個文件,每個文件包含JoshAH術語。所以 我們只要看看這個詞是否出現在其他文檔中,或者我們會看到它在其他文檔中出現了多少次?
非常感謝您在TF/IDF網站上提供的幫助。它幫助我很多在Java中使用tf-idf函數。我做了tf,但我有一個問題。就像他們在wiki上寫的那樣,IDF可以計算出有多少文檔有這個詞。但我很困惑。如何計算IDF?
例如,這裏是字符串「JosAH很棒,JoshAH岩石」,所以TF將是2/5,IDF有兩個文件,每個文件包含JoshAH術語。所以 我們只要看看這個詞是否出現在其他文檔中,或者我們會看到它在其他文檔中出現了多少次?
我不完全確定你在這裏問什麼。無論如何,IDF的目的--- 逆文件頻率 ---是爲了抑制非常頻繁的條件得分,並提高偶然條件的得分。
在您收集的兩份文件中,「JosAH」的IDF將爲0--因爲它出現在所有文件中。
文檔頻率爲「的包含術語集合中的文檔數」(從Introduction to Information Retrieval),所以你的話選擇前者,「只是看看這個詞出現」。
謝謝Alex,讓我解釋一下我的問題。在1個文件中,我可以計算詞頻以查看一個單詞出現的次數。但是對於以色列國防軍來說,我應該看看它是否發生在其他文件或否。或者我還應該看看在其他文檔中出現了多少次?如果你仍然有任何問題,請不要問我。謝謝 – user238384 2009-12-28 00:41:20
IDF的數學定義應該由您的教科書定義。引用維基百科:逆文檔頻率是衡量該詞一般重要性的指標(通過將所有文檔數除以包含該詞的文檔數,然後取該商的對數得到)。 所以你需要知道它發生的文件數*,文件數*總數。不過,您不需要每個文檔的出現次數。 – 2009-12-28 00:44:09
可以說一些我們如何計算TF/IDF和術語是「JosAH」及其 tf/idf = 0.232 但我們希望看到與第2個文檔的完整文檔相似性,所以我必須計算每個術語的TF/IDF?然後總結它得到實際的tf/idf ???如果我錯了,那麼請糾正我 – user238384 2009-12-28 03:17:42