動態環境下的強化學習與大型國家行動空間

我有一個500 * 500的網格有7個不同的懲罰值。我需要製作一個RL代理，其行動空間包含11個動作。（左，右，上，下，4個對角線方向，加速，減速和正常速度）。我怎麼解決這個問題？選擇的「執行操作」的概率爲0.8。否則，會選擇一個隨機動作。而且，懲罰值可以動態改變。動態環境下的強化學習與大型國家行動空間

來源

2017-05-08 Nitish Prakash

你是什麼意思的懲罰值動態變化？狀態1是否可以用平均值x返回一些分佈？還是完全統一？動態懲罰值是否僅僅爲您處理獎勵？ –

通過動態變化，我的意思是，假設在一種情況下，達到狀態1，給予4的懲罰。在其他情況下，達到狀態1，可以給予5的懲罰。您可以將其作爲狀態1給予懲罰從正態分佈。每個州都是如此。 –

請看這一章由Sutton incompleteideas.net/sutton/book/ebook/node15.html，特別是他在後面的部分的實驗。你的問題似乎與N-Armed強盜類似，因爲每個武器返回正常的獎勵分配。雖然本章主要關注探索，但問題仍然存在。

另一種看待它的方式是，如果你的狀態真的返回一個正常的處罰分佈，你將需要充分探索域來獲取狀態的均值，動作元組。在這些情況下的平均值是Q *，這會給你最優的政策。作爲後續，如果狀態空間太大或連續，則可能值得用函數逼近器來研究泛化。雖然適用相同的收斂規則，但有些情況下函數逼近會遇到問題。但我認爲這超出了本次討論的範圍。

來源

2017-05-11 13:45:29

動態環境下的強化學習與大型國家行動空間

回答

相關問題