'忘記大門'如何知道不要從LSTM中的單元狀態中刪除重要信息？

首先，我很抱歉如果這不適合堆棧溢出。這不是真正的代碼相關問題，而不是理論問題。'忘記大門'如何知道不要從LSTM中的單元狀態中刪除重要信息？

這並不完全清楚。假設你有一段很長的段落，你希望你的LSTM學習，它是如何確保它不刪除第一段的細節？

2017-06-19 madsthaks

在BPTT算法中，當詞在確定最終輸出時不起重要作用時，隨着訓練的進行，梯度將變小並且權重將變小。它是自動的，因爲LSTM機制決定它。

爲了您的關注，您可能會誤解LSTM，LSTM可以解決梯度消失問題，因爲它將continually multiply轉換爲continually plus。簡而言之，hi = a1 * h1 + a2 * h2 + a3 * h3 + ...，後者輸出是每個先前輸出的函數，所以梯度保持不變。有關梯度積累理論的詳細信息，請參閱An Empirical Exploration of Recurrent Network Architectures。另外，如今關注機制被廣泛應用，更適合您的需求，您可以看到Neural Machine Translation By Jointly Learning To Align and Translate。

來源

2017-06-19 08:55:29 danche

我明白了。現在，如果一個單詞/句子出現在前幾句中，並且對於接下來的3-4段沒有什麼意義，它可能會被遺忘。如果最終導致5-6段的重要結果呢？它將無法建立正確的連接，因爲它已經忘記了重要的細節。 – madsthaks

@madsthaks你可以看到我的編輯。 :) – danche

我相信this paper會有幫助。它解釋了反向傳播算法。

另請注意，對於LSTM的過程段落，多個LSTM塊以順序和並行方式使用。此外，神經網絡是black boxes：我們不知道內部工作如何，他們彌補了哪些細節本身很重要。

來源

2017-06-19 08:04:52

我明白了，我並沒有考慮多個LSTM塊。那麼，我會假設一些街區將重點放在文章中的細節上，而另一些則將重點放在最近發生的細節上？ – madsthaks

'忘記大門'如何知道不要從LSTM中的單元狀態中刪除重要信息？

回答

相關問題