sarsa

    2熱度

    2回答

    Q-Learning和SARSA的區別在於Q-Learning比較當前狀態和最佳狀態,在SARSA比較當前狀態和實際下一個狀態的情況下。 如果使用貪婪選擇策略,即在100%的時間內選擇具有最高動作值的動作,則SARSA和Q-Learning是否相同?

    3熱度

    1回答

    我正在嘗試基於Sutton & Barto's Book實現線性梯度下降Sarsa,請參閱下圖中的算法。 不過,我很難理解的東西在算法: 是可以採取多少不同的動作的W和Z獨立的維度?它在書中似乎有維數等於特徵的數量,我認爲這與特徵的數量無關。 每個動作都有w和z嗎?另外,我在書中看不到這應該是這樣。 如果我在上面的兩個項目中是正確的,那麼我看不到如何索引列表F_a將取決於操作,因此我看不到動作值函

    4熱度

    1回答

    雖然試圖實現神經網絡作爲近似器,但我想知道如何根據當前學習的網絡權重選擇最佳動作。如果動作空間是離散的,我可以計算當前狀態下不同動作的估計值並選擇給出最大值的那個。但這似乎不是解決問題的最佳方法。此外,如果動作空間可以是連續的,則不起作用(例如,像自動駕駛汽車的加速)。 所以,basicly我想知道如何解決10號線Choose A' as a function of q(S', , w)薩頓的這種

    2熱度

    1回答

    我試圖實施情景半梯度薩爾薩估計問題描述薩頓的書中解決Mountain Car Task。要近似q我想使用neural network。因此,我想出了this的代碼。但可悲的是,我的經紀人並沒有真正學習解決這個任務。在某些情節中,解決方案非常快(100-200步),但有時代理人需要超過30k步。我認爲,我在實施過程中犯了一些基本錯誤,但我無法自己找到它。有人可以幫助我,並指出我的實施中的錯誤/錯誤嗎

    2熱度

    1回答

    在具有累積合格性痕跡的波蘭λ(http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html)中,給出的算法與公式不匹配。 的formula說ë←ɣλE+ 1 其中爲[ALGO]更新與第一個E←E + 1,則E←ɣλE使更新有效 ë←ɣλ。(E + 1) 這是正確嗎? 我也看到了完全相同的公式和算法的研究論文。 他們錯過了在E + 1周圍放

    1熱度

    1回答

    關於SARSA強化學習,我試圖執行資格追蹤(前瞻性)。 我找到這張圖片: 我不確定什麼「對於所有S,A:」指(從下面5日線) 他們究竟是怎麼S的該集合,一從? 如果它的前瞻性,從當前狀態來觀察S'做循環前進? 你調整每一個E(S,A)?

    1熱度

    1回答

    我在學習案例中遇到問題。 我對gridworld模型的強化學習感興趣。 模型是運動的7x7領域的迷宮。 考慮一個領域的迷宮。有四個方向:上,下,左和右(或N,E,S,W)。所以最多的政策是。在碰撞牆上使用直接懲罰時,許多人可以被排除在外。 另外採用抑制回報原則,通常更少的行爲是可以接受的。許多政策僅在目標之後的部分或者具有同等效力。 ▼國家:障礙物 ▼獎勵:如果r = 1,如果S = G,否則r