Weka屬性選擇

我正試圖在Weka中執行屬性選擇。我想使用InfoGainAttributeEval作爲評估者，因爲我讀到它相當於互信息，Ranker作爲搜索方法。我應該對訓練和測試集進行屬性選擇嗎？另外，如何爲N參數選擇正確的值？Weka屬性選擇

非常感謝您的時間，

納迪亞

2012-09-16 nadia

在火車上和測試單獨申請屬性選擇可能會導致選擇不同的屬性，從而使它們不兼容。因此，爲了確保兩個集合具有相同的屬性，您需要在整個數據集上應用屬性選擇。一旦你選擇了最有用的屬性，你就可以將數據分割成一個列車和測試集。

至於要使用哪個值-N，我會使用您的總數屬性。這將導致所有屬性的排名列表，並且您可以自己評估所有屬性的不同分數。然後，您可能會發現一個明確的閾值，將保留任何有用信息的屬性分開，以便從不添加任何內容的屬性中訓練分類器然後我會使用-T選項設置此閾值。

2012-09-17 13:48:45 Sicco

你好@Sicco！我猜想批量過濾等同於您的培訓和測試集兼容方法。你對-N和-T參數的建議幫助我澄清了這個問題，並且我將在Weka中嘗試它們。非常感謝您提供的信息，並對延遲迴答感到抱歉！ – nadia

不會選擇屬性這種方式過度使用？ – fiacobelli

@fiacobelli這取決於你設置門檻的嚴格程度。如果你只採取最佳表現的屬性，而忽視其他過度擬合的可能性更大。我的建議是採取儘可能多的屬性，似乎有一些有趣的數據，並刪除明顯缺乏有價值信息的屬性。我在答覆中更清楚地說明了這一點。 – Sicco

回答