雖然試圖實現神經網絡作爲近似器,但我想知道如何根據當前學習的網絡權重選擇最佳動作。如果動作空間是離散的,我可以計算當前狀態下不同動作的估計值並選擇給出最大值的那個。但這似乎不是解決問題的最佳方法。此外,如果動作空間可以是連續的,則不起作用(例如,像自動駕駛汽車的加速)。 所以,basicly我想知道如何解決10號線Choose A' as a function of q(S', , w)薩頓的這種
我試圖實施情景半梯度薩爾薩估計問題描述薩頓的書中解決Mountain Car Task。要近似q我想使用neural network。因此,我想出了this的代碼。但可悲的是,我的經紀人並沒有真正學習解決這個任務。在某些情節中,解決方案非常快(100-200步),但有時代理人需要超過30k步。我認爲,我在實施過程中犯了一些基本錯誤,但我無法自己找到它。有人可以幫助我,並指出我的實施中的錯誤/錯誤嗎