2017-08-14 28 views
3

我想用我的分類器調試一個問題。問題在於,儘管接近80%的準確度,它仍然可以預測給定輸入的相同類別。分類:如果一個班級的數據量是其他班級的4倍,會發生什麼情況?

我訓練了我的CNN來檢測兩個類別之間的差異。 A級有2575個JPEG,B級有665個JPEG。

這是否導致我的問題與我的CNN總是預測同一類?這是不是每個班級的項目數量之間的不平衡?一般來說,如果我將兩個類的大小相同(665 jpegs?),我的表現會有所改善嗎?

+0

我認爲最好在[CrossValidated](https://stats.stackexchange.com/)中提問。 – kitman0804

回答

8

的問題似乎是類不平衡的情況下,有很多不同的方法來處理它:

  1. 加權損失: 您可以通過計算懲罰爲廣大損失函數獎勵weighted cross entropy
  2. 重新採樣數據:正如您所提到的,您還可以對多數類進行縮減採樣以平衡類。你也可以對少數類進行上取樣以使其均勻。
  3. 生成增強數據:既然你正在處理圖像,可以上取樣少數類,然後對這些圖像使用data augmentation,這解決了類不平衡以及剷球過學習和提高泛化。
  4. 和以上所有組合。
相關問題