2011-01-26 10 views
1

我使用LETOR來製作信息檢索系統。他們使用TF和IDF。 我相信TF是查詢相關的。但是IDF應該是,但是:對於多個文檔,IDF如何不同?

「請注意,IDF是獨立於文檔的,因此查詢下的所有文檔都具有相同的IDF值 。」

但這沒有意義,因爲IDF是功能列表的一部分。每個文檔的IDF將如何計算?

回答

4

IDF是術語特定的。任何給定術語的IDF都是獨立於文檔的,但TF是特定於文檔的。

說得不一樣。 假設我們有3個文件。

文件編號1 「敏捷的棕色狐狸跳過懶狗」

文件編號2 「狡猾的狐狸酒吧安納波利斯位於教堂圈」

文件編號3 「位於教堂圈,在歷史街區的心臟「

現在,如果IDF是(文件數量)/(包含詞語t的文件數量) 那麼無論搜索是什麼,術語fox的IDF都是3/2是或文件是什麼。所以IDF是t的函數。

另一方面,TF是t和d的函數。所以的TF「的」對文檔ID的1是2

3

要添加什麼jshen說:

IDF是多麼常見任何特定的單詞或克的措施在給定的語料庫,您正在搜索。它是對這個詞有多少罕見的估計,因此它可能很重要。所以如果一個查詢包含一個不常見的單詞,那麼包含該罕見單詞的文檔應該被判斷爲更重要。

相關問題