2014-10-30 72 views
0

我建立了一個分類,並希望提高其精度超越其目前73%機器學習 - 特徵選擇和訓練數據

我開始用卡方納入特徵選擇,但我會被選中怎麼回的特徵納入訓練數據來構建分類器?

如果我是這樣做的每個訓練數據進行比較,並只挑選出現在功能列表來看,那會是正確的嗎?

還做我需要做的測試數據集一樣,這是看不見的例子嗎?

任何意見將不勝感激。

回答

1

簡而言之,特徵選擇本質上說,(例如):「輸入向量的5個屬性,只有擁有1,3,4是有用的功能2,5都是垃圾,不要在使用它們。 」。這適用於訓練和測試模式,因爲它們來自同一分佈。因此,您可以從訓練和測試模式中刪除特徵2和5,然後按照通常的方式訓練和測試分類器。

更一般地,特徵提取的點(這是特徵選擇的超集)是將原來的輸入向量變換爲不同的輸入向量,更適合的分類。您將訓練和測試模式都轉換爲新的形式,從本質上創造了一個新問題。需要注意的是,值可能出現在原來的模式,或者沒有(他們可以通過從原來的圖形函數和值的組合來製備)然後使用新的,轉化problme既訓練和測試分類

0

值得除了blue_note的回答。

爲了防止過度擬合併確保您的模型將推廣,您應該在單獨的開發套件中測試您的特徵選擇策略。直覺是:如果你嘗試不同的模式(即在不同功能的子集訓練的分類器)的一個大數目,很可能有些人會在培訓執行比別人好只是偶然設置。爲了確保一個特定的模型比其他模型更好,您需要在不同的集合中測試它,並且在訓練期間沒有看到示例。