0

我有一個500 * 500的網格有7個不同的懲罰值。我需要製作一個RL代理,其行動空間包含11個動作。 (左,右,上,下,4個對角線方向,加速,減速和正常速度)。我怎麼解決這個問題? 選擇的「執行操作」的概率爲0.8。否則,會選擇一個隨機動作。而且,懲罰值可以動態改變。動態環境下的強化學習與大型國家行動空間

+0

你是什麼意思的懲罰值動態變化?狀態1是否可以用平均值x返回一些分佈?還是完全統一?動態懲罰值是否僅僅爲您處理獎勵? –

+0

通過動態變化,我的意思是,假設在一種情況下,達到狀態1,給予4的懲罰。在其他情況下,達到狀態1,可以給予5的懲罰。您可以將其作爲狀態1給予懲罰從正態分佈。每個州都是如此。 –

回答

0

請看這一章由Sutton incompleteideas.net/sutton/book/ebook/node15.html,特別是他在後面的部分的實驗。你的問題似乎與N-Armed強盜類似,因爲每個武器返回正常的獎勵分配。雖然本章主要關注探索,但問題仍然存在。

另一種看待它的方式是,如果你的狀態真的返回一個正常的處罰分佈,你將需要充分探索域來獲取狀態的均值,動作元組。在這些情況下的平均值是Q *,這會給你最優的政策。作爲後續,如果狀態空間太大或連續,則可能值得用函數逼近器來研究泛化。雖然適用相同的收斂規則,但有些情況下函數逼近會遇到問題。但我認爲這超出了本次討論的範圍。