IDF（逆文檔頻率）計算

我已經計算了我的數據集的TF，我正在嘗試爲它計算IDF。我很困惑哪個號碼用於計算。IDF（逆文檔頻率）計算

id  uid 
1   a 
1   b 
1   c 
1   d 
2   a 
2   b 
2   c 
2   e 
3   b 
3   c 
3   e 
3   f 
(3 items) 

Occurrence 
a = 2 
b = 3 
c = 3 
d = 1 
e = 2 
f = 1

其中給出這樣的事情如下：

式

IDF(t,D)=log(Total Number documents/Number of Document matching term);

例如使用（A，B），該值是2：我應該如何去計算呢？
總項數= 3
文件匹配項數=我應該使用A還是B值？（2或3）

(A,B) * log(total/matching) 
= 2 * log (3/2 or 3) ?

來源

2015-10-24 Tim

我不確定你的意思是（A，B）。

但我假設從您的數據集中：第一列是文檔ID，第二列是術語。

如果我的假設是正確的，那麼：文檔ID 1是「ABCD」文檔ID 2爲「ABCE」文檔ID 3是「BCEF」

您的IDF（噸，d）式是日誌（文件數量/包含該術語的文件數量）。因此，我們可以計算IDF每個術語如下所示：

IDF（ 'A'，d）=日誌（3/2） IDF（ 'B'，d）=日誌（3/3）和等等...

這是我的參考：https://en.wikipedia.org/wiki/Tf%E2%80%93idf

來源

2015-10-30 06:12:19 unaki

IDF（逆文檔頻率）計算

回答

相關問題