2017-06-19 11 views

回答

1

在BPTT算法中,當詞在確定最終輸出時不起重要作用時,隨着訓練的進行,梯度將變小並且權重將變小。它是自動的,因爲LSTM機制決定它。

爲了您的關注,您可能會誤解LSTM,LSTM可以解決梯度消失問題,因爲它將continually multiply轉換爲continually plus。簡而言之,hi = a1 * h1 + a2 * h2 + a3 * h3 + ...,後者輸出是每個先前輸出的函數,所以梯度保持不變。有關梯度積累理論的詳細信息,請參閱An Empirical Exploration of Recurrent Network Architectures。另外,如今關注機制被廣泛應用,更適合您的需求,您可以看到Neural Machine Translation By Jointly Learning To Align and Translate

+0

我明白了。現在,如果一個單詞/句子出現在前幾句中,並且對於接下來的3-4段沒有什麼意義,它可能會被遺忘。如果最終導致5-6段的重要結果呢?它將無法建立正確的連接,因爲它已經忘記了重要的細節。 – madsthaks

+0

@madsthaks你可以看到我的編輯。 :) – danche

0

我相信this paper會有幫助。它解釋了反向傳播算法。

另請注意,對於LSTM的過程段落,多個LSTM塊以順序並行方式使用。此外,神經網絡是black boxes:我們不知道內部工作如何,他們彌補了哪些細節本身很重要。

+0

我明白了,我並沒有考慮多個LSTM塊。那麼,我會假設一些街區將重點放在文章中的細節上,而另一些則將重點放在最近發生的細節上? – madsthaks

相關問題