2016-04-13 129 views

回答

2

是的,它可能還是。從某種意義上說,輟學是正規化,但比L1標準更爲微妙。它可以防止原始文件中描述的特徵檢測器的過度共同適應。

您可能不希望網絡學習依賴於一個功能或只是一小組功能,即使這是您訓練集中的最佳功能,因爲它可能不是新數據中的情況。直觀地說,即使在訓練集中沒有像這樣的示例圖像(即因爲臉部高級特徵已經被放棄了一些分數),那麼經過訓練以識別圖像中的人的輟學網絡在面部模糊的情況下仍然可以識別它們的時間);一個沒有丟失的網絡訓練可能不會(因爲臉部特徵可能是檢測人員的最佳單一特徵之一)。你可以認爲退出是一定程度的強迫概念泛化。

從經驗上講,當使用失落時,帶有失落產生的特徵檢測器的結構更爲結構化(例如,對於圖像:接近Gabor濾波器,對於前幾層)沒有丟失,它們更接近隨機(可能是因爲該網絡接近Gabor濾波器,它使用隨機濾波器的特定線性組合來向前收斂,如果它可以依賴於該組合的元素沒有被丟棄,則不存在向分離的梯度過濾器)。這也可能是一件好事,因爲它強制獨立的功能在早期實現爲獨立功能,這可能會導致稍後的低串擾。