問題學習率如何影響收斂速度和收斂本身。 如果學習速率不變,Q函數是否會收斂到最優或學習速率應該會衰減以保證收斂?Q學習代理的學習率
4
A
回答
0
它應該衰減否則會有一些波動引發政策的小變化。
1
學習速度必須衰減但不能太快。 收斂的條件如下(抱歉,沒有膠乳):
總和(α(t)的,1,INF)= INF
總和(α(t)的^ 2,1 ,inf)< inf
有點像alpha = k /(k + t)可以很好地工作。
本文討論的正是這種話題:
http://www.jmlr.org/papers/volume5/evendar03a/evendar03a.pdf
1
學習率表明系統邁出的一步解決的大小。
它不宜過大一些,因爲它可以圍繞極小連續振盪,它不宜過小一些否則它會佔用大量的時間和迭代達到最小值。
爲什麼衰變學習速率建議是因爲最初的時候,我們是在解空間完全隨機點我們需要對解決大跨越後,當我們接近它,我們做小的原因跳躍和小的改進,最終達到極小值。
比喻可製成:在高爾夫的比賽時,球遠離孔,玩家擊中它很難得到儘可能接近的孔。後來當他到達被標記的區域時,他選擇了另一根棍子來獲得準確的短射門。
因此,如果沒有選擇短射門杆,他不會將球放入洞中,他可能會在目標球前面兩三次發球。但如果他打出最佳狀態並使用適量的力量到達洞中,那將是最好的。衰退的學習率也是一樣。
相關問題
- 1. XGBoost - 學習率
- 2. Q學習教程混淆
- 3. Q學習係數溢出
- 4. Q學習轉換矩陣
- 5. 深q學習不收斂
- 6. 可以強化學習代理學習離散分佈
- 7. 概率和機器學習
- 8. 優化Tensorflow學習率
- 9. LSTM學習速率衰減
- 10. 自適應學習率Lasagne
- 11. 學習Python練習
- 12. Q中的ε衰變學習
- 13. Q學習與時間差異與基於模型的強化學習
- 14. 強化學習 - 從餘暉TD學習
- 15. 機器學習在Python:scikit學習/ Pybrain
- 16. Node.js學習指南或學習計劃
- 17. 在學習JQuery之前學習JavaScript?
- 18. 學習版本控制,並學習它
- 19. 分享點2010學習項目學習
- 20. 深度學習與機器學習
- 21. Q學習計算:狀態未知
- 22. 函數逼近器和q學習
- 23. 學習jQuery的
- 24. 學習的NodeJS
- 25. 學習jQuery的練習練習
- 26. 計算學習理論PAC學習框架
- 27. 使用scikit學習字典學習中的內存錯誤學習
- 28. 學習序言練習2.3
- 29. 學習和練習C++
- 30. C#代碼理解和學習
對於一個凸q學習問題,有一個足夠**小的**學習率可以保證收斂。 –
我假設還有對MDP性質的依賴。我假設MDP的收斂性要求在狀態轉換中具有隨機性,並且/或者獎勵函數需要滿足@purpletentacle發佈的要求。然而,我也假設在這個過程中沒有隨機性,或者學習率不需要衰減的獎勵。來自知道(最好有支持文獻)的人的見解將不勝感激。 – ALM