我正在處理一個非常具有挑戰性的分類問題,其中存在三個問題:小數據集(約800個樣本),不平衡數據集(4個類,其中1-6個樣本,每個2/3/4 - 50個樣本)以及其中一個特徵中缺少數據。如何處理用於機器學習分類問題的小型和非平衡數據集
,我一直在考慮一些事情包括:
生成合成數據,例如使用SMOTE(合成少數類過採樣技術)。
將分類變爲少數和多數之間的二元分類。
結合不同的分類器給負樣本賦予更多的權重(在我變成二元分類器的情況下)。
通過在成本函數中應用特定權重(有點類似於之前的版本,但使用所有4個類別)來進行成本敏感的學習。
我打算用作分類器樸素貝葉斯,支持向量機,隨機森林和神經網絡和2折交叉驗證。稍後我可能會移動到5到10倍。
的特徵的一些特點:
5連續,其中它們中的3是基於圖的位置,就不同的特性(最小,最大和分佈)和它們中的一些具有非常低的方差和重複數據
2個二進制功能,其中一個缺少數據。
數據段:
Y X1 X2_min X2_max X2_distribution X3 X4 X5
3 6 1 11 3.3058739 0 1 1
3 662 1 11 1.7779095 1 15 1
1 6 1 7 3.060274 0 1 1
3 8 1 6 2.9697127 0 1 1
3 82 1 14 3.0341356 0 1 1
2 39 1 7 4.2189913 0 1 1
4 1 3 14 4.6185904 1 1
我將非常感謝任何第二個想法。