2014-05-20 42 views
0

我有概念(貓)發生在5個文件 例如如何可以排設置的概念依賴於TF-IDF

貓D1 3次發生發生

貓D2 4次

的3個文件d

貓D5 2次發生

我知道TF/IDF提供貓的重量在D1 D2和D5 但我不知道我怎樣才能得到貓的重量一般我的意思是貓的重量計5文檔。

+0

如果我說得對,IDF背後的想法應該已經提供了你想要的。 –

回答

0

定義tf/idf是給定給定文檔中每個單詞的權重的度量。因此,您可以計算catcattf/idf權重,例如d5,例如:tf只不過是tf(cat,d5)=2idf部分等於集合中文檔數量的對數除以提及此單詞的文檔數量。在我們的情況下,idf(cat,D)= log(5/3)。接下來,tf/idf的重量可以作爲tf/idf(cat,d5)=2* log(5/3)來計算。

可以看出,tf/idf工作在一個單一的doument。如果您的目標是爲所有文檔(或集合中的某個類別)找到一個術語的權重,則可能需要查看不同的meathod(例如,Lanuguage建模LM)。