我正在爲網站定製搜索功能。我很好奇,如果僅使用tf-idf對我的語料庫中的文檔進行排名,也將有助於權衡比只有一個搜索詞的文檔更高的多個搜索詞的文檔。tf-idf:使用它是否有助於衡量共享條件高於不是文檔的文檔?
示例:搜索=「波蘭泉水」 理論上,如果文檔包含100次「波蘭」和0次「水」,上述查詢將使用傳統tf-idf來衡量更高的文檔。或者,如果它包含10次「波蘭」和10次「水」,則它會稱重文件。
我知道這一切都取決於「波蘭」和「水」的tf-idf值,但理論上在一個平坦的運動場上,該算法是否有助於將文檔帶到結果的頂部,如果有的話文件中有多個術語,還是真的是術語獨立?
嘿。我的回答有錯嗎? – Programmer 2011-05-21 06:51:49