2010-10-04 30 views
1

我正在爲網站定製搜索功能。我很好奇,如果僅使用tf-idf對我的語料庫中的文檔進行排名,也將有助於權衡比只有一個搜索詞的文檔更高的多個搜索詞的文檔。tf-idf:使用它是否有助於衡量共享條件高於不是文檔的文檔?

示例:搜索=「波蘭泉水」 理論上,如果文檔包含100次「波蘭」和0次「水」,上述查詢將使用傳統tf-idf來衡量更高的文檔。或者,如果它包含10次「波蘭」和10次「水」,則它會稱重文件。

我知道這一切都取決於「波蘭」和「水」的tf-idf值,但理論上在一個平坦的運動場上,該算法是否有助於將文檔帶到結果的頂部,如果有的話文件中有多個術語,還是真的是術語獨立?

+0

嘿。我的回答有錯嗎? – Programmer 2011-05-21 06:51:49

回答

1

它是獨立的術語。請記住,tf-idf稱重方案將查詢視爲一包單詞,並將每個文檔視爲一個矢量。對於上面的例子,考慮波蘭的tf是100,而文檔x中它的idf是1。另外,考慮波蘭的tf是10,水的tf是2是文件y。水的IDF是1

得分文檔的X = 100 得分DOC Y的= 12

DOC X排名更高雖然具有一個術語。

0

其術語獨立。取決於有多少文件包含波蘭和多少包含水的比例。那比例。如果它的一半,比第二個文件勝。如果比例爲100:1,那麼第一個文檔會勝出,因爲這個比率更類似於單詞的文檔內分佈。

相關問題