3

最近我研究了反向傳播網絡並做了一些手動練習。 之後,我想出了一個問題(也許沒有意義):在遵循兩種不同的替換方法時,有什麼重要的事情: 1.增量式訓練:一旦所有的三角翼Wij已知並且之前呈現下一個訓練矢量。 2.批量訓練:爲每個樣本訓練矢量計算並存儲delta Wij。但是,Delta Wij不會立即用於更新權重。體重更新是在訓練時期結束時完成的。神經網絡加權

我已經搜索了一段時間,但還沒有找到任何結果。

+0

我認爲你指的是批量與增量訓練模式。 – Amro 2010-11-15 22:14:54

回答

7

所以你指的是執行梯度下降學習的兩種模式。在批處理模式下,權重矩陣的變化累積在整個訓練數據集(一個'紀元');在線訓練在呈現包括訓練集的每個向量之後更新權重。

我認爲,網絡培訓的優勢在於優越性,因爲它收斂速度更快(大多數研究報告的準確性沒有明顯差異)。 (見例如,蘭德爾·威爾遜&託尼·馬丁內斯,批培訓的一般的效率欠佳的梯度下降學習,在神經網絡(2003)。

爲什麼在線培訓收斂速度快的原因是,它可以按照曲線每個曆元上的誤差表面,其實際意義在於你可以使用更大的學習速率(因此通過訓練數據以較少的週期收斂)。

換句話說,批量訓練的累積重量變化增加與訓練集的大小相關聯,結果是批次訓練在每次迭代中使用大步驟,因此錯過誤差空間拓撲中的局部最小值 - 解算器振盪而不是收斂。

批處理培訓通常是「默認」(最常用於ML教科書等),只要它在可接受的時間範圍內收斂,使用它就沒有任何問題。再次,性能差異(分辨率或分類精度)很小或可以忽略不計。

2

是的這兩種方法是有區別的。得到計算的增量是輸入矢量和網絡權重的函數。如果您更改權重,則從下一個輸入向量計算出的增量值將與您未更改權重的情況下不同。

因此,對於第一個輸入向量,無論您選擇哪種方法,都會計算相同的delta值。現在,對於連續方法,網絡中的權重將改變,而在同時方法中,權重將保持現在不變。當呈現第二個輸入矢量時,兩種方法現在將產生不同的增量,因爲兩個網絡之間的權重是不同的。