2015-10-24 84 views
0

我已經計算了我的數據集的TF,我正在嘗試爲它計算IDF。我很困惑哪個號碼用於計算。IDF(逆文檔頻率)計算

id  uid 
1   a 
1   b 
1   c 
1   d 
2   a 
2   b 
2   c 
2   e 
3   b 
3   c 
3   e 
3   f 
(3 items) 

Occurrence 
a = 2 
b = 3 
c = 3 
d = 1 
e = 2 
f = 1 

其中給出這樣的事情如下:

IDF(t,D)=log(Total Number documents/Number of Document matching term); 

例如使用(A,B),該值是2:我應該如何去計算呢?
總項數= 3
文件匹配項數=我應該使用A還是B值? (2或3)

(A,B) * log(total/matching) 
= 2 * log (3/2 or 3) ? 

回答

0

我不確定你的意思是(A,B)。

但我假設從您的數據集中:第一列是文檔ID,第二列是術語。

如果我的假設是正確的,那麼: 文檔ID 1是 「ABCD」 文檔ID 2爲 「ABCE」 文檔ID 3是 「BCEF」

您的IDF(噸,d)式是日誌(文件數量/包含該術語的文件數量)。因此,我們可以計算IDF每個術語如下所示:

IDF( 'A',d)=日誌(3/2) IDF( 'B',d)=日誌(3/3) 和等等...

這是我的參考:https://en.wikipedia.org/wiki/Tf%E2%80%93idf