2

你好,如何評估特徵選擇方法?

如何選擇一個給定的數據集(文本數據)最適合的特徵選擇方法?例如,在Weka中,有幾種屬性選擇方法(CfsSubsetEval,ChiSquaredAttributeEval,...等)和幾種搜索方法(bestfirst,greedy,ranker ...等)。

我的問題:我怎麼知道哪個屬性選擇方法和搜索方法最適合給定的數據集?

我的猜測:我應該在應用特徵選擇過濾器後使用交叉驗證來測試數據集嗎?例如,這意味着如果我有10個屬性選擇方法和10個搜索方法,我將需要執行100次交叉驗證測試,然後以最高精確度選擇配置!!!!!!!我在這裏假設我只對一個分類器進行測試。那麼,如果我有2個分類器(SMO和J48),我需要執行200個交叉驗證測試嗎?!

請糾正我,如果我誤解了什麼......

+0

您可以使用信息增益來確定哪些是最顯着的特徵 – Steve

回答

4

你可以試試信息增益或主成分分析,以確定哪些功能加入最讓您的分類(信息增益)或具有最高的方差分析(PCA)。

你也可以使用你提到的技巧。但是無論你做什麼,你都必須對它進行評估,看看它的效果如何,這取決於你的前景可能會很痛苦或者很有趣:-)

1

有不同種類的特徵選擇,包括過濾器和包裝方法。過濾器方法是基於距離,相關性或互信息來選擇特徵的與分類器無關的技術。我建議您檢查FEAST工具和mRMR

關於基於特定分類器的性能的包裝模型,您不需要枚舉所有的搜索方法。您修復了一種搜索方法並應用了您的帖子中提出的比較。

1

您應該在整個數據集上構建一個模型,然後執行特徵選擇(FS)。如果您有多個模型,則可以通過引用RMSE或MSE來縮放功能重要性。如果您熟悉R,請嘗試使用google搜索「隨機森林和功能選擇」。