uwenku
標簽列表
q-learning
1
熱度
2
回答
波爾茲曼探索在Q學習中有兩個以上的動作
我在Q學習中使用波爾茲曼探索,其中每個州至少有10個動作。我知道只有兩個動作,波爾茲曼探索可以很簡單地應用如下: 用Boltzman探索方程計算兩個動作的pr1和pr2。 生成一個隨機數r 假設pr1> pr2。如果r < = pr1,則採取與概率pr1相對應的操作。如果r> pr1,則採取與pr2相對應的操作。 但是,我該如何做10個動作呢?在每個決策步驟中,我會更新所有操作的概率。這給了我最好
machine-learning
reinforcement-learning
q-learning
2012-08-07
2
熱度
2
回答
如何在馬爾可夫決策過程中學習獎勵功能
在Q-learning期間更新R(s)功能的適當方式是什麼?例如,假設代理人訪問狀態s1五次,並收到獎勵[0,0,1,1,0]。我應該計算平均獎勵,例如R(s1)= sum([0,0,1,1,0])/ 5?或者我應該使用一個移動平均數來給予該州最近獲得的最新獎勵值更大的權重?我讀過的大多數關於Q學習的描述都將R(s)視爲某種常量,並且似乎並未涵蓋隨着時間的推移,隨着經驗的積累,您將如何學習這個價值
machine-learning
reinforcement-learning
q-learning
2011-07-17
«
1
2
3
4
5
6
»
最新問題
1.
如果語句不適用於循環
2.
在正數變化前增加+符號
3.
將OptimisticLockPolicy更改爲使用本地時間
4.
D3在直線邊緣和多個曲線邊緣之間切換
5.
一旦某件事情完成,我該如何完全停止代碼?
6.
用不同尺寸創建img和p標籤
7.
使用摩卡運行時,仍然會收到語法錯誤,導入爲babel-plugin-syntax-dynamic-import動態導入
8.
UWP視頻導入
9.
在paperjs中的圓段上繪製線
10.
優雅的方式,如果else語句的多組