0
我有概念(貓)發生在5個文件 例如如何可以排設置的概念依賴於TF-IDF
貓D1 3次發生發生
貓D2 4次
的3個文件d貓D5 2次發生
我知道TF/IDF提供貓的重量在D1 D2和D5 但我不知道我怎樣才能得到貓的重量一般我的意思是貓的重量計5文檔。
我有概念(貓)發生在5個文件 例如如何可以排設置的概念依賴於TF-IDF
貓D1 3次發生發生
貓D2 4次
的3個文件d貓D5 2次發生
我知道TF/IDF提供貓的重量在D1 D2和D5 但我不知道我怎樣才能得到貓的重量一般我的意思是貓的重量計5文檔。
定義tf/idf
是給定給定文檔中每個單詞的權重的度量。因此,您可以計算cat
中cat
的tf/idf
權重,例如d5
,例如:tf
只不過是tf(cat,d5)=2
。 idf
部分等於集合中文檔數量的對數除以提及此單詞的文檔數量。在我們的情況下,idf(cat,D)= log(5/3)
。接下來,tf/idf
的重量可以作爲tf/idf(cat,d5)=2* log(5/3)
來計算。
可以看出,tf/idf
工作在一個單一的doument。如果您的目標是爲所有文檔(或集合中的某個類別)找到一個術語的權重,則可能需要查看不同的meathod(例如,Lanuguage建模LM)。
如果我說得對,IDF背後的想法應該已經提供了你想要的。 –