2016-11-29 36 views
4

在薩頓&巴託的RL書(link)時,沃特金斯的Q(λ)學習算法在圖7.14介紹: enter image description here 10號線 「對於所有S,A:」 中, 「S,A」 這裏是所有(s,a),而第8行和第9行中的(s,a)用於當前(s,a),這是正確的嗎?如何理解Sutton&Barto的RL書中Watkins的Q(λ)學習算法?

在第12行和第13行,當一個'!= a *,執行第13行,所有e(s,a)都將被設置爲0,那麼當所有的資格跟蹤都是什麼時候,設置爲0,因爲情況a'!= a *將經常發生。即使情況a'!= a *不經常發生,但一旦發生,資格追蹤的含義就會完全失去,那麼Q就不會再被更新,因爲所有的e(s,a)= 0,那麼在每次更新中,如果使用替換軌跡,則e(s,a)仍然爲0。

那麼,這是錯誤嗎?

回答

0

在我逐步編寫這個過程後,我可以理解它。所有e(s,a)的軌跡在'!= a *後設爲0,但e(s',a')在下一步(此處爲第9行)再次設置爲1。看到這裏

step by step

5

資格痕跡的想法是給信用卡或只怪到符合條件的國家行動對我的理解細節。從薩頓&巴託書有想法的一個很好的例子: Backward view of eligibility traces

在沃特金斯的Q(λ)算法,你想給信貸/怪你居然會參觀了國家行動對,如果你將有以確定性的方式遵循你的政策Q(總是選擇最好的行動)。

所以回答你的問題是在第5行:

Choose a' from s' using policy derived from Q (e.g. epsilon-greedy)

因爲」選擇小量貪心,有一點機會(概率小量),您需要一個探索性的隨機一步,而不是貪婪的一步。在這種情況下,整個資格追蹤設置爲零,因爲將信用/責任歸於之前訪問過的狀態動作對是沒有意義的。您在隨機探索步驟之前訪問的州級行爲對應的未來獎勵不值得信任/責備,因此您會刪除整個資格跟蹤。在此後的時間步驟,你開始建立一個新的資格追蹤...

希望有所幫助。

+0

我認爲值得說明的是, SARSA(不重置資格痕跡)是Q(λ)是一種關閉策略算法。所以Q表是$ q _ * $的估計,而不是$ q _ {\ pi} $。 –