如何處理SVM中的數據不平衡？

如果我在lrge訓練集上訓練支持向量機，並且如果類變量爲True或False，與訓練集中False值的數量相比，True值是否會影響訓練模型/結果？他們應該是平等的嗎？如果我的訓練集不具有True和False的平等分佈，我該如何照顧這一點，以便儘可能有效地完成我的訓練？如何處理SVM中的數據不平衡？

來源

2012-07-31 London guy

數據不平衡是很好的，因爲SVM應該能夠對與不太可能的實例相關的錯誤分類錯誤（例如您的案例中的「真」）分配更大的懲罰，而不是分配相同的錯誤權重，這會導致不合要求的分類器將所有內容分配給大多數人。但是，你會可能獲得更好的結果與平衡的數據。這一切都取決於你的數據，真的。

您可以人爲地歪曲數據以獲得更平衡的數據。你爲什麼不檢查這篇文章：http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF。

來源

2012-08-01 01:10:04 TakeS

我的經驗是，標準的SVM分類器不能很好地處理不平衡的數據。我遇到了C-SVM，它對於nu-SVM更糟糕。也許你想看看P-SVM，它提供了一種特別適用於不平衡數據的模式。

來源

2014-02-21 22:00:39 UBod

如何處理SVM中的數據不平衡？

回答

相關問題