如何評估特徵選擇方法？

你好，如何評估特徵選擇方法？

如何選擇一個給定的數據集（文本數據）最適合的特徵選擇方法？例如，在Weka中，有幾種屬性選擇方法（CfsSubsetEval，ChiSquaredAttributeEval，...等）和幾種搜索方法（bestfirst，greedy，ranker ...等）。

我的問題：我怎麼知道哪個屬性選擇方法和搜索方法最適合給定的數據集？

我的猜測：我應該在應用特徵選擇過濾器後使用交叉驗證來測試數據集嗎？例如，這意味着如果我有10個屬性選擇方法和10個搜索方法，我將需要執行100次交叉驗證測試，然後以最高精確度選擇配置!!!!!!!我在這裏假設我只對一個分類器進行測試。那麼，如果我有2個分類器（SMO和J48），我需要執行200個交叉驗證測試嗎？！

請糾正我，如果我誤解了什麼......

來源

2013-01-08 TeFa

您可以使用信息增益來確定哪些是最顯着的特徵 – Steve

你可以試試信息增益或主成分分析，以確定哪些功能加入最讓您的分類（信息增益）或具有最高的方差分析（PCA）。

你也可以使用你提到的技巧。但是無論你做什麼，你都必須對它進行評估，看看它的效果如何，這取決於你的前景可能會很痛苦或者很有趣:-)

來源

2013-01-08 22:34:45 Steve

有不同種類的特徵選擇，包括過濾器和包裝方法。過濾器方法是基於距離，相關性或互信息來選擇特徵的與分類器無關的技術。我建議您檢查FEAST工具和mRMR。

關於基於特定分類器的性能的包裝模型，您不需要枚舉所有的搜索方法。您修復了一種搜索方法並應用了您的帖子中提出的比較。

來源

2013-01-09 03:47:31 soufanom

您應該在整個數據集上構建一個模型，然後執行特徵選擇（FS）。如果您有多個模型，則可以通過引用RMSE或MSE來縮放功能重要性。如果您熟悉R，請嘗試使用google搜索「隨機森林和功能選擇」。

來源

2013-01-09 10:01:24

如何評估特徵選擇方法？

回答

相關問題