0
我已經計算了我的數據集的TF,我正在嘗試爲它計算IDF。我很困惑哪個號碼用於計算。IDF(逆文檔頻率)計算
id uid
1 a
1 b
1 c
1 d
2 a
2 b
2 c
2 e
3 b
3 c
3 e
3 f
(3 items)
Occurrence
a = 2
b = 3
c = 3
d = 1
e = 2
f = 1
其中給出這樣的事情如下:
式
IDF(t,D)=log(Total Number documents/Number of Document matching term);
例如使用(A,B),該值是2:我應該如何去計算呢?
總項數= 3
文件匹配項數=我應該使用A還是B值? (2或3)
(A,B) * log(total/matching)
= 2 * log (3/2 or 3) ?