2017-03-03 86 views
1

任何強化學習算法中最重要的挑戰是在勘探和開發之間進行平衡。 我想在玩具問題上運行Q學習,並且我意識到存在快速的epsilon衰變發生。 我選擇了epsilon爲高(0.9或1),以便代理人可以做更多的探索,我的epsilon衰減大約爲0.999。 我如何減慢ε衰減,換句話說,我不希望代理商變得太快貪婪?我的衰變參數應該是什麼? 謝謝!Q中的ε衰變學習

回答

0

這取決於您正在運行多少次迭代,每集有多少步驟,以及您希望它衰減到什麼時間以及什麼時候衰減。 我建議你在每次迭代時繪製你的衰減epsilon值,看看它是否按照你的願望移動。

0

你是如何實現衰減功能的?

小量=小量* epsilon_decay

隨着時間的推移繪製你的小量值的建議是一個很好的一個。我建議你也看看本頁的陰謀: Exponential Decay

也許你想添加一個衰變常數到你的公式。