tf-idf：使用它是否有助於衡量共享條件高於不是文檔的文檔？

我正在爲網站定製搜索功能。我很好奇，如果僅使用tf-idf對我的語料庫中的文檔進行排名，也將有助於權衡比只有一個搜索詞的文檔更高的多個搜索詞的文檔。tf-idf：使用它是否有助於衡量共享條件高於不是文檔的文檔？

示例：搜索=「波蘭泉水」理論上，如果文檔包含100次「波蘭」和0次「水」，上述查詢將使用傳統tf-idf來衡量更高的文檔。或者，如果它包含10次「波蘭」和10次「水」，則它會稱重文件。

我知道這一切都取決於「波蘭」和「水」的tf-idf值，但理論上在一個平坦的運動場上，該算法是否有助於將文檔帶到結果的頂部，如果有的話文件中有多個術語，還是真的是術語獨立？

2010-10-04 Joe

嘿。我的回答有錯嗎？ – Programmer 2011-05-21 06:51:49

它是獨立的術語。請記住，tf-idf稱重方案將查詢視爲一包單詞，並將每個文檔視爲一個矢量。對於上面的例子，考慮波蘭的tf是100，而文檔x中它的idf是1。另外，考慮波蘭的tf是10，水的tf是2是文件y。水的IDF是1

得分文檔的X = 100 得分DOC Y的= 12

DOC X排名更高雖然具有一個術語。

2011-05-11 20:32:40 Programmer

其術語獨立。取決於有多少文件包含波蘭和多少包含水的比例。那比例。如果它的一半，比第二個文件勝。如果比例爲100：1，那麼第一個文檔會勝出，因爲這個比率更類似於單詞的文檔內分佈。

回答