1

我在張量流中建立了一個小型網絡。我注意到,如果我爲完全連接的層添加退出概率,那麼我必須使用較低的學習速率,否則我會得到漸變過沖。有沒有解釋爲什麼這種情況繼續發生?卷積網絡:完全連接層中的退出

回答

2

有趣的是在文學中觀察到相反的情況。原始文件丟失在這裏:http://www.jmlr.org/papers/volume15/srivastava14a.old/source/srivastava14a.pdf。在附錄A.2中:作者解釋說學習速度應該增加10-100倍,而動量也應該增加,因爲許多漸變相互抵消。也許你沒有使用足夠高的批量。

以下部分是我的解釋,與上面提供的文獻相比,爲什麼你的觀察結果發生了。

通過使用0.5壓差,只有一半的神經元處於活動狀態,並導致錯誤。這個錯誤的大小仍然相似。因此,錯誤將通過網絡傳回到只有一半的神經元。所以每個神經元在錯誤中的「部分」加倍。

通過使用相同的學習率梯度更新一倍。因此,如果您首先使用了較高的學習率,則會遇到同樣的問題。通過降低學習率,更新再次在您之前使用的範圍內。

相關問題