2015-10-08 124 views
4

問題學習率如何影響收斂速度和收斂本身。 如果學習速率不變,Q函數是否會收斂到最優或學習速率應該會衰減以保證收斂?Q學習代理的學習率

+4

對於一個凸q學習問題,有一個足夠**小的**學習率可以保證收斂。 –

+0

我假設還有對MDP性質的依賴。我假設MDP的收斂性要求在狀態轉換中具有隨機性,並且/或者獎勵函數需要滿足@purpletentacle發佈的要求。然而,我也假設在這個過程中沒有隨機性,或者學習率不需要衰減的獎勵。來自知道(最好有支持文獻)的人的見解將不勝感激。 – ALM

回答

0

它應該衰減否則會有一些波動引發政策的小變化。

1

學習率表明系統邁出的一步解決的大小。

不宜過大一些,因爲它可以圍繞極小連續振盪,它不宜過小一些否則它會佔用大量的時間和迭代達到最小值。

爲什麼衰變學習速率建議是因爲最初的時候,我們是在解空間完全隨機點我們需要對解決大跨越後,當我們接近它,我們做小的原因跳躍和小的改進,最終達到極小值。

比喻可製成:在高爾夫的比賽時,球遠離孔,玩家擊中它很難得到儘可能接近的孔。後來當他到達被標記的區域時,他選擇了另一根棍子來獲得準確的短射門。

因此,如果沒有選擇短射門杆,他不會將球放入洞中,他可能會在目標球前面兩三次發球。但如果他打出最佳狀態並使用適量的力量到達洞中,那將是最好的。衰退的學習率也是一樣。