0
我想獲得一些關於如何使用函數逼近的Q學習算法的有用說明。對於基本的Q學習算法,我找到了一些例子,我想我也明白它。如果使用函數逼近,我會遇到麻煩。有人可以通過一個簡短的例子來解釋它是如何工作的嗎?使用線性函數逼近的Q學習
我所知道的:
- Istead使用矩陣,我們使用的功能和參數Q值的。
- 使用派生函數和參數的線性組合近似。
- 更新參數。
我已經檢查本文:Q-learning with function approximation
但我不能找到任何有用的教程如何使用它。
感謝您的幫助!