分類：如果一個班級的數據量是其他班級的4倍，會發生什麼情況？

我想用我的分類器調試一個問題。問題在於，儘管接近80％的準確度，它仍然可以預測給定輸入的相同類別。分類：如果一個班級的數據量是其他班級的4倍，會發生什麼情況？

我訓練了我的CNN來檢測兩個類別之間的差異。 A級有2575個JPEG，B級有665個JPEG。

這是否導致我的問題與我的CNN總是預測同一類？這是不是每個班級的項目數量之間的不平衡？一般來說，如果我將兩個類的大小相同（665 jpegs？），我的表現會有所改善嗎？

2017-08-14 Sreehari R

我認爲最好在[CrossValidated]（https://stats.stackexchange.com/）中提問。 – kitman0804

的問題似乎是類不平衡的情況下，有很多不同的方法來處理它：

加權損失： 您可以通過計算懲罰爲廣大損失函數獎勵weighted cross entropy。
重新採樣數據：正如您所提到的，您還可以對多數類進行縮減採樣以平衡類。你也可以對少數類進行上取樣以使其均勻。
生成增強數據：既然你正在處理圖像，可以上取樣少數類，然後對這些圖像使用data augmentation，這解決了類不平衡以及剷球過學習和提高泛化。
和以上所有組合。

2017-08-14 02:55:42

回答