2015-10-06 205 views
4

我深學習的新手,創造了使用來自Caffe和圖像車輛分類工作有3個部分的問題:深度學習訓練數據集向Caffe

  1. 是否有在組織類的最佳做法培訓 CNN?即每個班級的班級數量和樣本數量? 例如,我會關閉這更好的方式:

    • (一)汽車 - 汽車 - 轎車/車,兩廂/車,SUV /卡車18輪/ ....(請注意,這可能意味着幾千類),或
    • (b)有較高的水平 模型,分類之間的汽車/卡車/兩輪車等... 如果車型然後查詢車型獲得車型
      (轎車/掀背車等)
  2. 每班有多少訓練圖像典型的最佳實踐?我知道還有其他一些影響CNN的準確性的變數,但是在每個班級拍攝的數字是多少? 它應該是模型中類的數量的函數嗎?對於 示例,如果我的模型中有很多課程,我應該爲每個課程提供更多 樣本嗎?

  3. 我們如何確保我們不會過度適應課堂?有沒有辦法測量一個班的培訓樣本的異質性?

在此先感謝。

回答

5
  1. 那麼,您在計算機視覺社區提到對應於一個非常具有挑戰性的任務的第一選擇:要一個基類的下屬分類精細圖像分類,說車!要獲得有關this的更多信息,可以參閱本文。根據關於圖像分類的文獻,對諸如汽車/卡車這樣的高級別課程進行分類對於CNN來說要簡單得多,因爲可能存在更多的區分特徵。我建議遵循第二種方法,即將所有類型的汽車與卡車等進行分類。

  2. 訓練樣本的數量主要與參數的數量成正比,即如果您想訓練淺層模型,則需要的樣本少得多。這也取決於您是否調整預先訓練好的模型或從頭開始訓練網絡。當沒有足夠的樣品時,您必須對任務中的模型進行微調。

  3. 過度擬合摔跤在機器學習中一直是一個問題,甚至CNN也不是免費的。在文獻中,已經引入了一些實用的建議來減少過度擬合的發生,例如失落層和數據增加過程。

可能不包括在你的問題,但似乎你應該遵循的微調過程,即初始化與模型的預先計算權重的網絡上的另一任務(比如ILSVRC 201X)和適應根據你的新任務權重。這個過程在社區中被稱爲轉移學習(有時稱爲域適應)。