uwenku
標簽列表
temporal-difference
1
熱度
1
回答
更新規則中的時間差
更新規則TD(0)Q-學習: Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t))) 然後取無論是當前最好的行動(優化)或隨機動作(資源管理器) 哪裏MaxNextQ是可以在未來的狀態下得到了最大Q ... 但在TD(1)我想更新規則將是: Q(t-2) = (1-alpha) * Q(t-2) + (alp
artificial-intelligence
machine-learning
markov-models
temporal-difference
2010-05-28
«
1
2
»
最新問題
1.
ABCreateStringWithAddressDictionary棄用
2.
將一個字符串的第一個實例替換爲一個變量或其他唯一字符串
3.
從psd獲取座標
4.
在TextView中更改textSize
5.
用於日常報告
6.
如何更新卡片視圖佈局點擊它時?
7.
如何在ns3中實現GPSR算法?
8.
MVC/Entity Framework編輯動作
9.
PL/SQL:如何將行組合成一個字符串
10.
如何在Google端點響應中發送自定義標頭