2014-02-19 42 views

回答

1

訓練數據中類表示的不對稱通常稱爲偏斜[https://en.wikipedia.org/wiki/Skewness],併爲您的模型帶來了一些問題,所以一般而言,您希望避免那。

這就是說,這只是一個經驗法則,你可能會遇到這樣的情況,即具有較少數據點的類實際上被正確表示,而其他類是多餘的,在這種情況下,每個班級的積分可能並不重要。

主要問題是,如果數據在代表性方面是平衡的,可能很難說出先驗,所以最好的方法是儘量保持數據點的平衡。此外,有些算法對非對稱數據很敏感,所以即使數據確實代表了空間,不平衡也可能會給模型帶來偏差。

這裏有一些鏈接,可能會有所幫助:

http://people.stern.nyu.edu/fprovost/Papers/skew.PDF

http://etabeta.univ.trieste.it/dspace/bitstream/10077/4002/1/Menardi%20Torelli%20DEAMS%20WPS2.pdf

http://florianhartl.com/thoughts-on-machine-learning-dealing-with-skewed-classes.html

相關問題