使用權重處理不平衡數據

我有非常不平衡的數據，目標是分類。首先，我想檢查大多數類別的欠採樣。 1級有600，2級90，3級60和4級96樣本數據！使用權重處理不平衡數據

使用重量：在2倍交叉驗證和隨機森林模型：

爲什麼使用重量，結果是不是更好嗎？這是我的代碼：cfr = RandomForestClassifier(n_estimators=100,n_jobs=5,class_weight={1:1,2:30,3:30,4:30}) 在我的代碼中是否有任何錯誤？你能指導我嗎？

來源

2015-11-07 Talia

實際的問題是什麼是你的任務。你的任務是儘可能提高模型的準確性，儘管你有很大的不成比例的類。如果是這樣，你應該不欠示例測試集。實際上，你從來沒有低於或超過測試集，但是，在某些情況下，你可能會增加特定類別的權重來修正真實先驗（可能與經驗不同）或者由於成本敏感的學習。

來源

2015-11-07 20:50:42 lejlot

我試着用重量。我正在使用sklearn的隨機森林，我不知道如何找到一個有效的權重數字。我用cfr = RandomForestClassifier（n_estimators = 100，n_jobs = 5，class_weight = {1：1,2：3,3：3,4：3}），但它沒有效果。我使用2,3和4組更高的數字，如10,20或甚至100.結果更糟糕。 – Talia

對不起，結果稍好一些 – Talia

使用權重處理不平衡數據

回答

相關問題