我想更好地瞭解如何我的特徵向量的值可能會影響結果。例如,假設我有一個最終值作爲結果下面的載體(這是使用SVC分類問題爲例):使用SVC偏差結果的特徵向量中的值可能非常大(或非常小)? [scikit學習]
0.713, -0.076, -0.921, 0.498, 2.526, 0.573, -1.117, 1.682, -1.918, 0.251, 0.376, 0.025291666666667, -200, 9, 1
你會發現,大部分值中心的周圍0但是,有一個數值比-200更小。
我擔心這個數值會對預測產生偏差,並且由於價值差別太大而被加權得比其他數據重得不公平。
這是創建特徵向量時需要關注的東西嗎?或者我將使用統計測試來評估基於我提供的訓練集的這個大(或小)值的矢量控制? sci-kit中有沒有可用的方法專門學習,你會推薦標準化矢量?
謝謝你的幫助!
嗨,謝謝你的回覆。我真的很感激這個意見。我嘗試了以下方法:我在scikit-learn上使用了這些方法來「規範化」我的訓練集和測試特徵向量:http://scikit-learn.org/0.11/modules/preprocessing.html。當我做一些測試時,我發現我的未被標準化的特徵向量比標準化的要好。你認爲這反映了我發現的結果是什麼? –
如果一切都已經正確完成(你應該仔細檢查它,因爲它最可能的原因是一個錯誤),這將意味着你的不合理實際上有助於分類器做出正確的決定 - 所以這種偏見是由於缺乏標準化正在以「正確的方式」移動決策邊界。簡而言之 - 正常化不會執行,因爲它會保證更好的結果。它的執行是因爲我們假設我們不知道先驗哪些特徵更好,哪些更差 – lejlot
@ T.S .:可能這個特徵是正確類的強預測者,而其餘特徵只是噪音。特徵選擇可能有助於消除無用功能。 –