2
我正在使用支持向量機對短語進行分類。在使用SVM之前,我明白我應該對短語向量進行某種標準化。一種流行的方法是TF-IDF。使用SVM時,TF-IDF是否必要?
具有最高TF-IDF分數的術語通常是最能表徵文檔主題的術語。
但是這不正是SVM所做的事情嗎?爲最能表徵文檔的術語賦予最高權重?預先:-)
我正在使用支持向量機對短語進行分類。在使用SVM之前,我明白我應該對短語向量進行某種標準化。一種流行的方法是TF-IDF。使用SVM時,TF-IDF是否必要?
具有最高TF-IDF分數的術語通常是最能表徵文檔主題的術語。
但是這不正是SVM所做的事情嗎?爲最能表徵文檔的術語賦予最高權重?預先:-)
一個術語(如通過SVM分類分配)的重
由於可以或可以不直接正比於該術語的特定類的關聯性。這取決於分類器的核心以及使用的正則化。 SVM確實不是爲最能表徵單個文檔的術語分配權重。
術語頻率(tf)和逆文檔頻率(idf)用於編碼文檔向量中的術語值。這與SVM分類器無關。