2016-11-29 39 views
0

我目前正試圖瞭解TensorFlow中LSTM的BPTT。我得到參數「num_steps」用於RNN推出的範圍和錯誤反向傳播。我對這是如何工作有一個普遍的問題。LSTM的反向傳播時間(BPTT)

供公式重新參考。我指的是: Formulas LSTMhttps://arxiv.org/abs/1506.00019

問: 什麼路徑backpropagated很多步驟是什麼?常數誤差傳送帶由公式5創建,反向傳播的導數(s(t) - > s(t-1))對所有時間步長均爲1。這就是爲什麼LSTM捕獲遠距離依賴性的原因。我混淆了h(t-1)的g(t),i(t),f(t)和o(t)的依賴關係。用語言來說:當前的門不僅取決於輸入,還取決於最後的隱藏狀態。

沒有這種依賴性導致爆炸/再次消失梯度問題?

如果我沿着這些連接backpropagate我得到的不是一個梯度。窺視孔連接基本上導致相同的問題。

感謝您的幫助!

+0

也許更適合HTTP: 。//stats.stackexchange.com或http://datascience.stackexchange.com – mrmcgreg

+0

謝謝,我也貼吧有:http://datascience.stackexchange.com/questions/15444/backpropagation-through-time-bptt-of -lstm功能於tensorflow –

回答

0

我終於找到了自己的答案:

在LSTMs(https://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&cad=rja&uact=8&ved=0ahUKEwjOybDTstDQAhWJiywKHVigAioQFgg6MAI&url=http%3A%2F%2Fdeeplearning.cs.cmu.edu%2Fpdfs%2FHochreiter97_lstm.pdf&usg=AFQjCNGoFvqrva4rDCNIcqNe_SiPL_VPxg)的原始論文據說(第4章,第7頁)是:

學習我們使用RTRL的一個變種(例如Robinson and Fallside 1987)正確地考慮了由輸入和輸出門引起的改變的乘法動態。然而,爲了確保通過存儲器單元的內部狀態的非衰減誤差反向傳播,如截斷的BPTT例如Williams和Peng 1990),到達「記憶細胞淨輸入」的錯誤(對於細胞cj,這包括netcj,netinj,netoutj)不會被及時傳播回去(儘管它們的確有助於改變傳入的權重)。只有within2存儲單元,錯誤將通過回以前的內部狀態SCJ傳播「

所以基本上:反向傳播,通過關於內部狀態的時間完成,但其他複雜的依賴性不backpropagated