任何強化學習算法中最重要的挑戰是在勘探和開發之間進行平衡。 我想在玩具問題上運行Q學習,並且我意識到存在快速的epsilon衰變發生。 我選擇了epsilon爲高(0.9或1),以便代理人可以做更多的探索,我的epsilon衰減大約爲0.999。 我如何減慢ε衰減,換句話說,我不希望代理商變得太快貪婪?我的衰變參數應該是什麼? 謝謝!Q中的ε衰變學習
Q
Q中的ε衰變學習
1
A
回答
0
這取決於您正在運行多少次迭代,每集有多少步驟,以及您希望它衰減到什麼時間以及什麼時候衰減。 我建議你在每次迭代時繪製你的衰減epsilon值,看看它是否按照你的願望移動。
0
你是如何實現衰減功能的?
小量=小量* epsilon_decay
隨着時間的推移繪製你的小量值的建議是一個很好的一個。我建議你也看看本頁的陰謀: Exponential Decay
也許你想添加一個衰變常數到你的公式。
相關問題
- 1. Q學習代理的學習率
- 2. LSTM學習速率衰減
- 3. Keras的學習速度雖然衰退,但學習速度沒有變化
- 4. Q學習教程混淆
- 5. Q學習係數溢出
- 6. Q學習轉換矩陣
- 7. 深q學習不收斂
- 8. Q學習計算:狀態未知
- 9. 函數逼近器和q學習
- 10. Q學習與時間差異與基於模型的強化學習
- 11. 學習VBA變量
- 12. 在Q學習中的探索和利用
- 13. 深度Q學習算法中的phi是什麼
- 14. 在Q學習中,你怎麼才能真正獲得Q值? Q(s,a)不會永遠持續下去嗎?
- 15. 使用線性函數逼近的Q學習
- 16. 甚至可能沒有最終狀態的Q學習?
- 17. Q學習:什麼是獎勵計算正確的狀態
- 18. 用於q學習的神經網絡體系結構
- 19. 學習Java中
- 20. 使用scikit學習字典學習中的內存錯誤學習
- 21. 獎勵在Q學習和TD(拉姆達)
- 22. Q學習與神經網絡(獎勵理解)組合
- 23. Q深度學習算法不起作用
- 24. 局部敏感散列(LSH)中的ε(ε)參數是什麼?
- 25. 如何理解Sutton&Barto的RL書中Watkins的Q(λ)學習算法?
- 26. 學習Python練習
- 27. 學習jQuery的
- 28. 學習的NodeJS
- 29. 波爾茲曼探索在Q學習中有兩個以上的動作
- 30. Lisp變體學習的任何建議?