如何處理用於機器學習分類問題的小型和非平衡數據集

我正在處理一個非常具有挑戰性的分類問題，其中存在三個問題：小數據集（約800個樣本），不平衡數據集（4個類，其中1-6個樣本，每個2/3/4 - 50個樣本）以及其中一個特徵中缺少數據。如何處理用於機器學習分類問題的小型和非平衡數據集

，我一直在考慮一些事情包括：

生成合成數據，例如使用SMOTE（合成少數類過採樣技術）。
將分類變爲少數和多數之間的二元分類。
結合不同的分類器給負樣本賦予更多的權重（在我變成二元分類器的情況下）。
通過在成本函數中應用特定權重（有點類似於之前的版本，但使用所有4個類別）來進行成本敏感的學習。

我打算用作分類器樸素貝葉斯，支持向量機，隨機森林和神經網絡和2折交叉驗證。稍後我可能會移動到5到10倍。

的特徵的一些特點：

5連續，其中它們中的3是基於圖的位置，就不同的特性（最小，最大和分佈）和它們中的一些具有非常低的方差和重複數據
2個二進制功能，其中一個缺少數據。

數據段：

Y X1 X2_min X2_max X2_distribution X3 X4 X5 
3 6 1  11  3.3058739  0 1 1 
3 662 1  11  1.7779095  1 15 1 
1 6 1  7  3.060274  0 1 1 
3 8 1  6  2.9697127  0 1 1 
3 82 1  14  3.0341356  0 1 1 
2 39 1  7  4.2189913  0 1 1 
4 1 3  14  4.6185904   1 1

我將非常感謝任何第二個想法。

來源

2015-11-19 user3423639

我會建議要麼更多的重量或複製屬於較小的類的數據。一種方法是在複製較小類的實例時添加隨機噪聲。噪聲的方差可以根據每個類別內的特徵的方差來估計。

來源

2016-07-20 02:58:09

如果一個小數據集是最具代表性的例子（例如，目前在甚至將深度學習技術應用於小數據集方面正在取得進展），那麼小數據集就不成問題。你怎麼知道你的數據集是否具有代表性？它需要適當的抽樣技術，如分層抽樣而不是隨機抽樣。

要解決不平衡的數據集，有各種技術：欠採樣（由於小數據集不適用於您的情況），過採樣（可以工作，但存在模型過擬合的風險）以及成本敏感的學習（請參閱用於實現的Vowpal Wabbit工具包）

來源

2017-07-20 14:10:49 fjxx

如何處理用於機器學習分類問題的小型和非平衡數據集

回答

相關問題