機器學習 - 特徵選擇和訓練數據

我建立了一個分類，並希望提高其精度超越其目前73％機器學習 - 特徵選擇和訓練數據

我開始用卡方納入特徵選擇，但我會被選中怎麼回的特徵納入訓練數據來構建分類器？

如果我是這樣做的每個訓練數據進行比較，並只挑選出現在功能列表來看，那會是正確的嗎？

還做我需要做的測試數據集一樣，這是看不見的例子嗎？

任何意見將不勝感激。

2014-10-30 chee yeo

簡而言之，特徵選擇本質上說，（例如）：「輸入向量的5個屬性，只有擁有1,3,4是有用的功能2,5都是垃圾，不要在使用它們。」。這適用於訓練和測試模式，因爲它們來自同一分佈。因此，您可以從訓練和測試模式中刪除特徵2和5，然後按照通常的方式訓練和測試分類器。

更一般地，特徵提取的點（這是特徵選擇的超集）是將原來的輸入向量變換爲不同的輸入向量，更適合的分類。您將訓練和測試模式都轉換爲新的形式，從本質上創造了一個新問題。需要注意的是，值可能出現在原來的模式，或者沒有（他們可以通過從原來的圖形函數和值的組合來製備）然後使用新的，轉化problme既訓練和測試分類

來源

2014-10-31 11:26:53

值得除了blue_note的回答。

爲了防止過度擬合併確保您的模型將推廣，您應該在單獨的開發套件中測試您的特徵選擇策略。直覺是：如果你嘗試不同的模式（即在不同功能的子集訓練的分類器）的一個大數目，很可能有些人會在培訓執行比別人好只是偶然設置。爲了確保一個特定的模型比其他模型更好，您需要在不同的集合中測試它，並且在訓練期間沒有看到示例。

來源

2014-10-31 21:12:47

機器學習 - 特徵選擇和訓練數據

回答

相關問題