我一直在研究強化學習,但我不明白的是如何計算Q值。如果你使用Bellman方程Q(s,a) = r + γ*max(Q(s',a'))
,它會不會永遠持續下去?因爲Q(s',a')
會進一步需要一個時間步長的Q值,而這隻會繼續下去。它如何結束?在Q學習中,你怎麼才能真正獲得Q值? Q(s,a)不會永遠持續下去嗎?
0
A
回答
1
Reinforcement Learning您通常會嘗試查找策略(在特定狀態下采取的最佳操作),並且在策略不再更改或價值函數(代表期望的回報)已經收斂時結束學習過程。
你似乎混淆Q-learning和Value Iteration using the Bellman equation。 Q學習是在您使用所獲得的獎勵更新Q無模型技術:
這裏直接獎勵[R噸+ 1是已經做動作後獲得的獎勵a t in state s t。 α是應該在0和1之間的學習率,如果是0,則不進行學習,如果是1,則只考慮最新的獎勵。
Value iteration與Bellman equation:
在哪裏需要,也定義爲P(個模型P 一個(S,S)'| S,A) ,這是從狀態s到s'使用動作a的概率。要檢查是否值函數收斂,通常價值函數V噸+ 1相比V噸所有狀態,如果它是大於一個小的值的情況下(&小量)策略被所述被會聚:
參見:
相關問題
- 1. 爲什麼q/\\ a/equal q/\ a /?
- 2. 深q學習不收斂
- 3. Q學習教程混淆
- 4. Q學習係數溢出
- 5. Q學習轉換矩陣
- 6. Q學習代理的學習率
- 7. request.GET ['q'],request.GET('q')和request.GET('q',)
- 8. 在Windows中獲取Recv-Q/Send-Q?
- 9. Q中的ε衰變學習
- 10. Ajax中的 'Q'( 「GET」,+ STR,真正的 「some_page.php Q =?」)
- 11. Q學習計算:狀態未知
- 12. 函數逼近器和q學習
- 13. 怎麼能使用`Q`與貓鼬
- 14. 當q大小未知時,如何遞歸調用如下方法:q [0] .from(q [1] .from(q [2] .from(q [3]))))
- 15. Q學習:什麼是獎勵計算正確的狀態
- 16. 製作:Q!具有與以下相同的功能:q!在vim
- 17. Q中
- 18. 在Q
- 19. Q行爲的Q不一致
- 20. 爲什麼CreateFile永遠持續下去?
- 21. 爲什麼if [!$(grep -q)]在grep -q時不起作用?
- 22. 深度Q學習算法中的phi是什麼
- 23. WATSON Q和A基地址
- 24. schema.org - q&a網站標記
- 25. Confluence的Q&A插件
- 26. 給出「N」發現p和q使得p + q = N和p * q是最大的
- 27. 怎樣可以得到Q上
- 28. 下約DataGrid列#初學者q
- 29. Q鏈接不正確
- 30. 讓cookie永遠持續下去?