2014-02-16 47 views
2

我正在使用支持向量機對短語進行分類。在使用SVM之前,我明白我應該對短語向量進行某種標準化。一種流行的方法是TF-IDF。使用SVM時,TF-IDF是否必要?

具有最高TF-IDF分數的術語通常是最能表徵文檔主題的術語。

但是這不正是SVM所做的事情嗎?爲最能表徵文檔的術語賦予最高權重?預先:-)

回答

2

一個術語(如通過SVM分類分配)的重

由於可以或可以不直接正比於該術語的特定類的關聯性。這取決於分類器的核心以及使用的正則化。 SVM確實不是爲最能表徵單個文檔的術語分配權重。

術語頻率(tf)和逆文檔頻率(idf)用於編碼文檔向量中的術語值。這與SVM分類器無關。

相關問題