你好,如何評估特徵選擇方法?
如何選擇一個給定的數據集(文本數據)最適合的特徵選擇方法?例如,在Weka中,有幾種屬性選擇方法(CfsSubsetEval,ChiSquaredAttributeEval,...等)和幾種搜索方法(bestfirst,greedy,ranker ...等)。
我的問題:我怎麼知道哪個屬性選擇方法和搜索方法最適合給定的數據集?
我的猜測:我應該在應用特徵選擇過濾器後使用交叉驗證來測試數據集嗎?例如,這意味着如果我有10個屬性選擇方法和10個搜索方法,我將需要執行100次交叉驗證測試,然後以最高精確度選擇配置!!!!!!!我在這裏假設我只對一個分類器進行測試。那麼,如果我有2個分類器(SMO和J48),我需要執行200個交叉驗證測試嗎?!
請糾正我,如果我誤解了什麼......
您可以使用信息增益來確定哪些是最顯着的特徵 – Steve