2
在具有累積合格性痕跡的波蘭λ(http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)中,給出的算法與公式不匹配。這是SARSA中的一個錯誤嗎?Sutton&Barto的RL書的主題?
的formula說ë←ɣλE+ 1
其中爲[ALGO]更新與第一個E←E + 1,則E←ɣλE使更新有效
ë←ɣλ。(E + 1)
這是正確嗎? 我也看到了完全相同的公式和算法的研究論文。
他們錯過了在E + 1周圍放置一對括號是否與出版物有差異?
如果是這樣,大多數研究論文如何複製相同的錯誤。
或
如果我誤解了某些內容,請指出。
我看過那個圖,我的觀點是在算法中,爲什麼用E←ɣλE+ɣλ – jaggi
更新而不是E←ɣλE+ 1(對於當前狀態s)。圖7.11 [http://webdocs.cs.ualberta (在這裏)表示對於所有狀態,E←ɣλE包括當前狀態,其資格追蹤已經在循環的「衰變」之前增加1 – jaggi
我不能'不明白你的觀點。你有沒有看到Equ(7.13),你能理解嗎?如果可以的話,那麼在圖7.11中,第8行和第11行正在做等式(7.13)所說的。也許你的觀點是,對於當前的s,a(s,a)已經被第8行和第11行更新,結果,它被更新爲E←ɣλE+ɣλ而不是E←ɣλE+ 1。天哪,我想我已經明白了,現在我也感到困惑。 – user186199