Q學習代理的學習率

問題學習率如何影響收斂速度和收斂本身。如果學習速率不變，Q函數是否會收斂到最優或學習速率應該會衰減以保證收斂？Q學習代理的學習率

2015-10-08 igotca

對於一個凸q學習問題，有一個足夠**小的**學習率可以保證收斂。 –

我假設還有對MDP性質的依賴。我假設MDP的收斂性要求在狀態轉換中具有隨機性，並且/或者獎勵函數需要滿足@purpletentacle發佈的要求。然而，我也假設在這個過程中沒有隨機性，或者學習率不需要衰減的獎勵。來自知道（最好有支持文獻）的人的見解將不勝感激。 – ALM

它應該衰減否則會有一些波動引發政策的小變化。

2016-01-28 13:02:59 user2526028

學習速度必須衰減但不能太快。收斂的條件如下（抱歉，沒有膠乳）：

有點像alpha = k /（k + t）可以很好地工作。

本文討論的正是這種話題：

2016-02-27 09:32:35 purpletentacle

學習率表明系統邁出的一步解決的大小。

它不宜過大一些，因爲它可以圍繞極小連續振盪，它不宜過小一些否則它會佔用大量的時間和迭代達到最小值。

爲什麼衰變學習速率建議是因爲最初的時候，我們是在解空間完全隨機點我們需要對解決大跨越後，當我們接近它，我們做小的原因跳躍和小的改進，最終達到極小值。

比喻可製成：在高爾夫的比賽時，球遠離孔，玩家擊中它很難得到儘可能接近的孔。後來當他到達被標記的區域時，他選擇了另一根棍子來獲得準確的短射門。

因此，如果沒有選擇短射門杆，他不會將球放入洞中，他可能會在目標球前面兩三次發球。但如果他打出最佳狀態並使用適量的力量到達洞中，那將是最好的。衰退的學習率也是一樣。

2017-07-11 11:48:59 VishalTheBeast

回答