2015-11-19 101 views
3

我正在處理一個非常具有挑戰性的分類問題,其中存在三個問題:小數據集(約800個樣本),不平衡數據集(4個類,其中1-6個樣本,每個2/3/4 - 50個樣本)以及其中一個特徵中缺少數據。如何處理用於機器學習分類問題的小型和非平衡數據集

,我一直在考慮一些事情包括:

  • 生成合成數據,例如使用SMOTE(合成少數類過採樣技術)。

  • 將分類變爲少數和多數之間的二元分類。

  • 結合不同的分類器給負樣本賦予更多的權重(在我變成二元分類器的情況下)。

  • 通過在成本函數中應用特定權重(有點類似於之前的版本,但使用所有4個類別)來進行成本敏感的學習。

我打算用作分類器樸素貝葉斯,支持向量機,隨機森林和神經網絡和2折交叉驗證。稍後我可能會移動到5到10倍。

的特徵的一些特點:

  • 5連續,其中它們中的3是基於圖的位置,就不同的特性(最小,最大和分佈)和它們中的一些具有非常低的方差和重複數據

  • 2個二進制功能,其中一個缺少數據。

數據段:

Y X1 X2_min X2_max X2_distribution X3 X4 X5 
3 6 1  11  3.3058739  0 1 1 
3 662 1  11  1.7779095  1 15 1 
1 6 1  7  3.060274  0 1 1 
3 8 1  6  2.9697127  0 1 1 
3 82 1  14  3.0341356  0 1 1 
2 39 1  7  4.2189913  0 1 1 
4 1 3  14  4.6185904   1 1 

我將非常感謝任何第二個想法。

回答

1

我會建議要麼更多的重量或複製屬於較小的類的數據。一種方法是在複製較小類的實例時添加隨機噪聲。噪聲的方差可以根據每個類別內的特徵的方差來估計。

0

如果一個小數據集是最具代表性的例子(例如,目前在甚至將深度學習技術應用於小數據集方面正在取得進展),那麼小數據集就不成問題。你怎麼知道你的數據集是否具有代表性?它需要適當的抽樣技術,如分層抽樣而不是隨機抽樣。

要解決不平衡的數據集,有各種技術:欠採樣(由於小數據集不適用於您的情況),過採樣(可以工作,但存在模型過擬合的風險)以及成本敏感的學習(請參閱用於實現的Vowpal Wabbit工具包)