Q中的ε衰變學習

任何強化學習算法中最重要的挑戰是在勘探和開發之間進行平衡。我想在玩具問題上運行Q學習，並且我意識到存在快速的epsilon衰變發生。我選擇了epsilon爲高（0.9或1），以便代理人可以做更多的探索，我的epsilon衰減大約爲0.999。我如何減慢ε衰減，換句話說，我不希望代理商變得太快貪婪？我的衰變參數應該是什麼？謝謝！Q中的ε衰變學習

來源

2017-03-03 enthusiast

這取決於您正在運行多少次迭代，每集有多少步驟，以及您希望它衰減到什麼時間以及什麼時候衰減。我建議你在每次迭代時繪製你的衰減epsilon值，看看它是否按照你的願望移動。

來源

2017-04-16 22:21:05 David

你是如何實現衰減功能的？

小量=小量* epsilon_decay

隨着時間的推移繪製你的小量值的建議是一個很好的一個。我建議你也看看本頁的陰謀： Exponential Decay

也許你想添加一個衰變常數到你的公式。

來源

2017-06-21 20:26:18 Ryan

Q中的ε衰變學習

回答

相關問題