在薩頓&巴託的RL書(link)時,沃特金斯的Q(λ)學習算法在圖7.14介紹: 10號線 「對於所有S,A:」 中, 「S,A」 這裏是所有(s,a),而第8行和第9行中的(s,a)用於當前(s,a),這是正確的嗎?如何理解Sutton&Barto的RL書中Watkins的Q(λ)學習算法?
在第12行和第13行,當一個'!= a *,執行第13行,所有e(s,a)都將被設置爲0,那麼當所有的資格跟蹤都是什麼時候,設置爲0,因爲情況a'!= a *將經常發生。即使情況a'!= a *不經常發生,但一旦發生,資格追蹤的含義就會完全失去,那麼Q就不會再被更新,因爲所有的e(s,a)= 0,那麼在每次更新中,如果使用替換軌跡,則e(s,a)仍然爲0。
那麼,這是錯誤嗎?
我認爲值得說明的是, SARSA(不重置資格痕跡)是Q(λ)是一種關閉策略算法。所以Q表是$ q _ * $的估計,而不是$ q _ {\ pi} $。 –