我的具有漸變下降的SARSA不斷使指數級別的權重升級。在第4集第17步價值已經楠 Exception: Qa is nan
e.g: 6) Qa:
Qa = -2.00890180632e+303
7) NEXT Qa:
Next Qa with west = -2.28577776413e+303
8) THETA:
1.78032402991e+303 <= -0.1 + (
我想獲得一些關於如何使用函數逼近的Q學習算法的有用說明。對於基本的Q學習算法,我找到了一些例子,我想我也明白它。如果使用函數逼近,我會遇到麻煩。有人可以通過一個簡短的例子來解釋它是如何工作的嗎? 我所知道的: Istead使用矩陣,我們使用的功能和參數Q值的。 使用派生函數和參數的線性組合近似。 更新參數。 我已經檢查本文:Q-learning with function approximatio