2017-09-22 99 views
0

我對WEKA相當陌生,我有一個數據集111 cases109 attributes。我正在使用WEKA中的功能選項卡CfsSubsetEvalBestFirst search method以供feature selection使用。我正在使用leave-one-out cross-validationCfsSubsetEvaluator在進行特徵選擇時,在選擇交叉驗證的每個步驟中的特徵時使用多少和/或什麼標準?

所以,多少特徵不WEKA挑或什麼是停止標準爲特徵的數目這個方法選擇在交叉驗證的各步驟

謝謝,

戈皮

回答

0

CfsSubsetEval算法正在搜索可以很好地協同工作的特徵子集(特徵之間的相關性較低,與目標標籤之間的相關性較高)。子集的分數稱爲價值(你可以在輸出中看到它)。

BestFirst搜索將不允許您確定要選擇的功能的數量。但是,您可以使用其他方法,例如GreedyStepWise或使用InformationGain/GainRatio算法與Ranker,並定義特徵集的大小。

您可以用來影響集合大小的另一個選項是搜索方向(向前,向後...)。

祝你好運

+0

感謝您的解釋。我還有一個疑問:在'WEKA'中用於'BestFirst'搜索方法'參數'它表示_ ** searchTermination - 在終止搜索** _之前指定連續的非改進節點的數量。這就像是交叉驗證每一步中功能數量的停止標準。你能解釋一下嗎 – Gopi

+0

就像我說過的,算法計算每個子集的「優點」得分。 BestFirst幾乎是貪婪的。如果以前的分數沒有提高分數,該參數確定嘗試找到更好的分組的次數。當它達到一個子集時,它不能改進 - 它會停止並返回找到的最佳集合。 – AndreyF