2016-05-15 160 views

回答

6

這個進來的有梯度下降訓練神經網絡的上下文。由於我們通常使用隨機或小批量梯度下降來訓練神經網絡,因此並不是所有訓練數據都用於每個迭代步驟。

隨機和小批量梯度下降在每次迭代中使用batch_size數量的訓練樣例,因此在某些時候您將使用所有數據進行訓練並可從數據集的開始處重新開始。

考慮到一個時間點是整個訓練集中的一個完整通道,意味着它是梯度下降更新的多次迭代,直到您將所有數據顯示給NN,然後重新開始。

+0

一個完整的通行證是做什麼的?如果您使用完全相同的訓練數據,爲什麼需要多個完整的傳球?我認爲一次通過會發現梯度下降的最小誤差。 – mskw

+0

@mskw漸變下降是一種迭代算法,它在一次迭代中找不到最小值。 –

+0

那麼時代與梯度下降有什麼關係? – mskw

0

Epoches是單遍通過整個訓練數據集。 傳統梯度下降法計算損失函數的梯度與參數有關的給定數量的歷元的整個訓練數據集。

+0

什麼是單程?什麼一次過? – mskw

+0

單程從第一層訪問所有神經元,然後是隱藏層,然後是最後/輸出層。 – Naren

+0

訪問?它和單程一樣含糊不清。你是指單梯度下降迭代? – mskw