2012-10-05 67 views
1

我想要得到的使用使用TF-IDF餘弦相似度方法兩個詞的語義相似。 對於第一個我想從維基百科或字net.After採取的這些詞的含義,我想預先處理文本,並找到TF-IDF。當我用Google搜索的問題,我發現,找到TF-IDF,我們應該有一列火車集和測試集。在我的情況下,哪一個是火車集,哪一個是測試集?如何使用計算結果計算餘弦相似度?如何計算TF-IDF

回答

0

訓練階段被發現在TF-IDF,這是calculated基於給定字的文件對所有文檔頻率的權重。一旦你擁有了所有的權重,這意味着你將每個文檔轉換爲N個單詞的向量。

現在,給出兩個文件i和j,您可以通過餘弦函數計算它們的相似性。在兩個矢量上的餘弦相似性度量是通過它們的點積在它們的幅度上計算的。查看here瞭解更多信息。