temporal-difference

    1熱度

    1回答

    更新規則TD(0)Q-學習: Q(t-1) = (1-alpha) * Q(t-1) + (alpha) * (Reward(t-1) + gamma* Max(Q(t))) 然後取無論是當前最好的行動(優化)或隨機動作(資源管理器) 哪裏MaxNextQ是可以在未來的狀態下得到了最大Q ... 但在TD(1)我想更新規則將是: Q(t-2) = (1-alpha) * Q(t-2) + (alp