2015-07-21 202 views
2

我在我的數據集上訓練了一個SVM和邏輯迴歸分類器。兩個分類器都提供一個權重向量,其大小爲特徵的數量。我可以使用這個權重向量來選擇10個最重要的特徵,只需選擇權重最高的10個特徵。如何使用SVM的權重向量和邏輯迴歸來表示特徵重要性?

我應該使用權重的絕對值,即選擇絕對值最高的10個特徵嗎?其次,這僅適用於線性內核的SVM,但不適用於我已閱讀的RBF內核。對於非線性核心,權重不知何故是線性的。在非線性核SVM的情況下,權矢量不能用來確定特徵的重要性的確切原因是什麼?

回答

1

當我回答similar question時,任何linear classifier的權重向量都表示特徵重要性:簡單地說因爲最終值是特徵值與權重作爲係數的線性組合,所以權重越大,對最終值的影響就越大相應的加數。

因此,對於線性分類器,您可以使用權重最大的特徵(而不是特徵本身的最大值,或者權重和特徵值的最大值)。

這也解釋了爲什麼SVM具有非線性的內核像RBF不具有這樣的屬性:既特徵值和權重轉換成另一個空間,你不能說越大的重量會導致較大的衝擊,見wiki

如果您需要爲非線性SVM選擇最重要的特徵,請使用feature selection的特殊方法,即wrapper methods

相關問題