在Q-learning期間更新R(s)功能的適當方式是什麼?例如,假設代理人訪問狀態s1五次,並收到獎勵[0,0,1,1,0]。我應該計算平均獎勵,例如R(s1)= sum([0,0,1,1,0])/ 5?或者我應該使用一個移動平均數來給予該州最近獲得的最新獎勵值更大的權重?我讀過的大多數關於Q學習的描述都將R(s)視爲某種常量,並且似乎並未涵蓋隨着時間的推移,隨着經驗的積累,您將如何學習這個價值。如何在馬爾可夫決策過程中學習獎勵功能
編輯:我可能會混淆R(s)在Q學習與R(s,s')在Markov Decision Process。問題仍然類似。在學習MDP時,更新R(s,s')的最佳方法是什麼?
您能接受答案或說出缺少的東西嗎? –