2012-07-31 86 views
6

如果我在lrge訓練集上訓練支持向量機,並且如果類變量爲True或False,與訓練集中False值的數量相比,True值是否會影響訓練模型/結果?他們應該是平等的嗎?如果我的訓練集不具有True和False的平等分佈,我該如何照顧這一點,以便儘可能有效地完成我的訓練?如何處理SVM中的數據不平衡?

回答

3

數據不平衡是很好的,因爲SVM應該能夠對與不太可能的實例相關的錯誤分類錯誤(例如您的案例中的「真」)分配更大的懲罰,而不是分配相同的錯誤權重,這會導致不合要求的分類器將所有內容分配給大多數人。但是,你會可能獲得更好的結果與平衡的數據。這一切都取決於你的數據,真的。

您可以人爲地歪曲數據以獲得更平衡的數據。你爲什麼不檢查這篇文章:http://pages.stern.nyu.edu/~fprovost/Papers/skew.PDF

2

我的經驗是,標準的SVM分類器不能很好地處理不平衡的數據。我遇到了C-SVM,它對於nu-SVM更糟糕。也許你想看看P-SVM,它提供了一種特別適用於不平衡數據的模式。