2015-11-07 54 views
0

我有非常不平衡的數據,目標是分類。首先,我想檢查大多數類別的欠採樣。 1級有600,2級90,3級60和4級96樣本數據!使用權重處理不平衡數據

使用重量:在2倍交叉驗證和隨機森林模型: enter image description here

爲什麼使用重量,結果是不是更好嗎? 這是我的代碼:cfr = RandomForestClassifier(n_estimators=100,n_jobs=5,class_weight={1:1,2:30,3:30,4:30}) 在我的代碼中是否有任何錯誤?你能指導我嗎?

回答

0

實際的問題是什麼是你的任務。你的任務是儘可能提高模型的準確性,儘管你有很大的不成比例的類。如果是這樣,你應該不欠示例測試集。實際上,你從來沒有低於或超過測試集,但是,在某些情況下,你可能會增加特定類別的權重來修正真實先驗(可能與經驗不同)或者由於成本敏感的學習。

+0

我試着用重量。我正在使用sklearn的隨機森林,我不知道如何找到一個有效的權重數字。我用cfr = RandomForestClassifier(n_estimators = 100,n_jobs = 5,class_weight = {1:1,2:3,3:3,4:3}),但它沒有效果。我使用2,3和4組更高的數字,如10,20或甚至100.結果更糟糕。 – Talia

+0

對不起,結果稍好一些 – Talia