LSTM的反向傳播時間（BPTT）

我目前正試圖瞭解TensorFlow中LSTM的BPTT。我得到參數「num_steps」用於RNN推出的範圍和錯誤反向傳播。我對這是如何工作有一個普遍的問題。LSTM的反向傳播時間（BPTT）

供公式重新參考。我指的是： Formulas LSTM（https://arxiv.org/abs/1506.00019）

問：什麼路徑backpropagated很多步驟是什麼？常數誤差傳送帶由公式5創建，反向傳播的導數（s（t） - > s（t-1））對所有時間步長均爲1。這就是爲什麼LSTM捕獲遠距離依賴性的原因。我混淆了h（t-1）的g（t），i（t），f（t）和o（t）的依賴關係。用語言來說：當前的門不僅取決於輸入，還取決於最後的隱藏狀態。

沒有這種依賴性導致爆炸/再次消失梯度問題？

如果我沿着這些連接backpropagate我得到的不是一個梯度。窺視孔連接基本上導致相同的問題。

感謝您的幫助！

來源

2016-11-29 Torben.

也許更適合HTTP：。//stats.stackexchange.com或http://datascience.stackexchange.com – mrmcgreg

謝謝，我也貼吧有：http://datascience.stackexchange.com/questions/15444/backpropagation-through-time-bptt-of -lstm功能於tensorflow –

我終於找到了自己的答案：

在LSTMs（https://www.google.de/url?sa=t&rct=j&q=&esrc=s&source=web&cd=3&cad=rja&uact=8&ved=0ahUKEwjOybDTstDQAhWJiywKHVigAioQFgg6MAI&url=http%3A%2F%2Fdeeplearning.cs.cmu.edu%2Fpdfs%2FHochreiter97_lstm.pdf&usg=AFQjCNGoFvqrva4rDCNIcqNe_SiPL_VPxg）的原始論文據說（第4章，第7頁）是：

「學習我們使用RTRL的一個變種（例如Robinson and Fallside 1987）正確地考慮了由輸入和輸出門引起的改變的乘法動態。然而，爲了確保通過存儲器單元的內部狀態的非衰減誤差反向傳播，如截斷的BPTT例如Williams和Peng 1990），到達「記憶細胞淨輸入」的錯誤（對於細胞cj，這包括netcj，netinj，netoutj）不會被及時傳播回去（儘管它們的確有助於改變傳入的權重）。只有within2存儲單元，錯誤將通過回以前的內部狀態SCJ傳播「

所以基本上：反向傳播，通過關於內部狀態的時間完成，但其他複雜的依賴性不backpropagated

來源

2016-11-30 11:43:20

LSTM的反向傳播時間（BPTT）

回答

相關問題