sarsa

2熱度

2回答

Q-Learning和SARSA的區別在於Q-Learning比較當前狀態和最佳狀態，在SARSA比較當前狀態和實際下一個狀態的情況下。如果使用貪婪選擇策略，即在100％的時間內選擇具有最高動作值的動作，則SARSA和Q-Learning是否相同？

3熱度

1回答

瞭解線性梯度下降Sarsa（基於Sutton＆Barto）

我正在嘗試基於Sutton & Barto's Book實現線性梯度下降Sarsa，請參閱下圖中的算法。不過，我很難理解的東西在算法：是可以採取多少不同的動作的W和Z獨立的維度？它在書中似乎有維數等於特徵的數量，我認爲這與特徵的數量無關。每個動作都有w和z嗎？另外，我在書中看不到這應該是這樣。如果我在上面的兩個項目中是正確的，那麼我看不到如何索引列表F_a將取決於操作，因此我看不到動作值函

4熱度

1回答

具有神經網絡的情景式半梯度薩爾薩

雖然試圖實現神經網絡作爲近似器，但我想知道如何根據當前學習的網絡權重選擇最佳動作。如果動作空間是離散的，我可以計算當前狀態下不同動作的估計值並選擇給出最大值的那個。但這似乎不是解決問題的最佳方法。此外，如果動作空間可以是連續的，則不起作用（例如，像自動駕駛汽車的加速）。所以，basicly我想知道如何解決10號線Choose A' as a function of q(S', , w)薩頓的這種

2熱度

1回答

薩爾薩與神經網絡解決山車任務

我試圖實施情景半梯度薩爾薩估計問題描述薩頓的書中解決Mountain Car Task。要近似q我想使用neural network。因此，我想出了this的代碼。但可悲的是，我的經紀人並沒有真正學習解決這個任務。在某些情節中，解決方案非常快（100-200步），但有時代理人需要超過30k步。我認爲，我在實施過程中犯了一些基本錯誤，但我無法自己找到它。有人可以幫助我，並指出我的實施中的錯誤/錯誤嗎

2熱度

1回答

這是SARSA中的一個錯誤嗎？Sutton＆Barto的RL書的主題？

在具有累積合格性痕跡的波蘭λ（http://webdocs.cs.ualberta.ca/~sutton/book/ebook/node77.html）中，給出的算法與公式不匹配。的formula說ë←ɣλE+ 1 其中爲[ALGO]更新與第一個E←E + 1，則E←ɣλE使更新有效 ë←ɣλ。（E + 1）這是正確嗎？我也看到了完全相同的公式和算法的研究論文。他們錯過了在E + 1周圍放

1熱度

1回答

如何計算sarsa的資格痕跡？

關於SARSA強化學習，我試圖執行資格追蹤（前瞻性）。我找到這張圖片：我不確定什麼「對於所有S，A：」指（從下面5日線）他們究竟是怎麼S的該集合，一從？如果它的前瞻性，從當前狀態來觀察S'做循環前進？你調整每一個E（S，A）？

1熱度

1回答

如何在R程序中獲得SARSA代碼爲gridworld模型？

我在學習案例中遇到問題。我對gridworld模型的強化學習感興趣。模型是運動的7x7領域的迷宮。考慮一個領域的迷宮。有四個方向：上，下，左和右（或N，E，S，W）。所以最多的政策是。在碰撞牆上使用直接懲罰時，許多人可以被排除在外。另外採用抑制回報原則，通常更少的行爲是可以接受的。許多政策僅在目標之後的部分或者具有同等效力。 ▼國家：障礙物 ▼獎勵：如果r = 1，如果S = G，否則r