temporal-difference

1熱度

1回答

更新規則TD（0）Q-學習： Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t))) 然後取無論是當前最好的行動（優化）或隨機動作（資源管理器）哪裏MaxNextQ是可以在未來的狀態下得到了最大Q ... 但在TD（1）我想更新規則將是： Q(t-2) = (1-alpha) * Q(t-2) + (alp