2012-09-16 139 views
5

我正試圖在Weka中執行屬性選擇。我想使用InfoGainAttributeEval作爲評估者,因爲我讀到它相當於互信息,Ranker作爲搜索方法。我應該對訓練和測試集進行屬性選擇嗎?另外,如何爲N參數選擇正確的值?Weka屬性選擇

非常感謝您的時間,

納迪亞

回答

1

在火車上和測試單獨申請屬性選擇可能會導致選擇不同的屬性,從而使它們不兼容。因此,爲了確保兩個集合具有相同的屬性,您需要在整個數據集上應用屬性選擇。一旦你選擇了最有用的屬性,你就可以將數據分割成一個列車和測試集。

至於要使用哪個值-N,我會使用您的總數屬性。這將導致所有屬性的排名列表,並且您可以自己評估所有屬性的不同分數。然後,您可能會發現一個明確的閾值,將保留任何有用信息的屬性分開,以便從不添加任何內容的屬性中訓練分類器然後我會使用-T選項設置此閾值。

+0

你好@Sicco!我猜想批量過濾等同於您的培訓和測試集兼容方法。你對-N和-T參數的建議幫助我澄清了這個問題,並且我將在Weka中嘗試它們。非常感謝您提供的信息,並對延遲迴答感到抱歉! – nadia

+0

不會選擇屬性這種方式過度使用? – fiacobelli

+0

@fiacobelli這取決於你設置門檻的嚴格程度。如果你只採取最佳表現的屬性,而忽視其他過度擬合的可能性更大。我的建議是採取儘可能多的屬性,似乎有一些有趣的數據,並刪除明顯缺乏有價值信息的屬性。我在答覆中更清楚地說明了這一點。 – Sicco