2016-08-15 66 views
0

MNIST for LM Beginners教程中,我相信這是一個錯誤。我認爲這部分是不準確的:MNIST爲ML初學者教程錯誤

使用小批量的隨機數據被稱爲隨機訓練 - 在這種情況下,隨機梯度下降。

隨機梯度下降是用於更新參數每個訓練樣例(http://sebastianruder.com/optimizing-gradient-descent/index.html#gradientdescentvariants),和在100尺寸的教程批次所使用的,我相信會是小批量梯度下降來代替。

我可能是錯的,但不應該這樣改變?

+0

在神經網絡訓練,SGD通常是指優化與小批 –

回答

0

在維基百科(https://en.wikipedia.org/wiki/Stochastic_gradient_descent)和Sebastian Ruder的調查中,隨機梯度下降(SGD)被稱爲梯度下降。然而,它已成爲機器學習中頗爲流行也用於小批量梯度下降術語。

當使用隨機梯度下降,則假定該梯度可以通過使用一個單一的數據樣本,其可以是相當沉重的假設,根據在數據中的波動的梯度被合理地近似。如果使用小批量梯度下降(對於某些問題,可能是小批量粒度),您仍然依賴於單個批次,儘管這種依賴性通常小於單個樣品(因爲您有這裏至少有一點平均值)。因此,梯度本身(或更新規則,如果您更喜歡這個觀點)是一個隨機變量,因爲它圍繞整個數據集的平均值波動。因此,許多人使用小批量梯度下降和隨機梯度下降作爲同義詞。