q-learning

1熱度

2回答

我在Q學習中使用波爾茲曼探索，其中每個州至少有10個動作。我知道只有兩個動作，波爾茲曼探索可以很簡單地應用如下：用Boltzman探索方程計算兩個動作的pr1和pr2。生成一個隨機數r 假設pr1> pr2。如果r < = pr1，則採取與概率pr1相對應的操作。如果r> pr1，則採取與pr2相對應的操作。但是，我該如何做10個動作呢？在每個決策步驟中，我會更新所有操作的概率。這給了我最好

2熱度

2回答

如何在馬爾可夫決策過程中學習獎勵功能

在Q-learning期間更新R（s）功能的適當方式是什麼？例如，假設代理人訪問狀態s1五次，並收到獎勵[0,0,1,1,0]。我應該計算平均獎勵，例如R（s1）= sum（[0,0,1,1,0]）/ 5？或者我應該使用一個移動平均數來給予該州最近獲得的最新獎勵值更大的權重？我讀過的大多數關於Q學習的描述都將R（s）視爲某種常量，並且似乎並未涵蓋隨着時間的推移，隨着經驗的積累，您將如何學習這個價值