2016-10-19 25 views
2

在具有累積合格性痕跡的波蘭λ(http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)中,給出的算法與公式不匹配。這是SARSA中的一個錯誤嗎?Sutton&Barto的RL書的主題?

formula說ë←ɣλE+ 1

其中爲[ALGO]更新與第一個E←E + 1,則E←ɣλE使更新有效
ë←ɣλ。(E + 1)

這是正確嗎? 我也看到了完全相同的公式和算法的研究論文。

他們錯過了在E + 1周圍放置一對括號是否與出版物有差異?
如果是這樣,大多數研究論文如何複製相同的錯誤。


如果我誤解了某些內容,請指出。

回答

0

我認爲他們沒有錯過任何括號,它是E←ɣλE+ 1。由於E每次應該減少ɣλ,除非s是當前的那個。所以1表示當前的s。這裏有一個數字http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node75.html,這可以讓你更好地理解這個想法,它是Equ(7.5)和(7.6)之間的一個。

+1

我看過那個圖,我的觀點是在算法中,爲什麼用E←ɣλE+ɣλ – jaggi

+0

更新而不是E←ɣλE+ 1(對於當前狀態s)。圖7.11 [http://webdocs.cs.ualberta (在這裏)表示對於所有狀態,E←ɣλE包括當前狀態,其資格追蹤已經在循環的「衰變」之前增加1 – jaggi

+0

我不能'不明白你的觀點。你有沒有看到Equ(7.13),你能理解嗎?如果可以的話,那麼在圖7.11中,第8行和第11行正在做等式(7.13)所說的。也許你的觀點是,對於當前的s,a(s,a)已經被第8行和第11行更新,結果,它被更新爲E←ɣλE+ɣλ而不是E←ɣλE+ 1。天哪,我想我已經明白了,現在我也感到困惑。 – user186199

相關問題