2016-10-01 51 views
0

我目前正在努力處理一個非常不平衡的數據集,其中有9個類,最多和最少表示類之間的比例爲12:1。應用weka的SMOTE過濾器,直到所有類別都具有同等代表性,從分類結果的總體分類準確率86%到分類準確率95%,大大改善了分類結果。在應用SMOTE過濾器之前,單個類別準確度(真正的正面)也普遍得到改善,它們在94%-99%之間應用SMOTE過濾器後在40%-99%之間。因此,精度隨着SMOTE濾波器的應用次數而增加。WEKA的SMOTE過濾器 - 如何解釋結果

這些「新」結果有多可靠?這可能是更多的過度合適的影響?

回答

0

我只想給我一個結果,以防其他人在同一個問題上絆倒。不幸的是,似乎精度的提高很可能來自過度擬合。 我通過使用訓練測試設置而不是交叉驗證來得出這個結論:我隨機化了我的數據,將其分成85%的訓練數據和15%的測試數據兩部分。然後,我將SMOTE過濾器應用於訓練數據,直到所有的課程都得到同等的代表。這個上採樣數據然後訓練了一個分類模型(END-implementation)並且測試數據被用於分類。因此,使用這種設置和SMOTE的分類結果非常接近沒有SMOTE的分類結果,總共大約86%。因此,似乎準確度的提高來自交叉驗證設置中的測試數據也被放大並因此導致過度擬合的事實。

有人對此有更多瞭解嗎?還是有人想挑戰這些發現?