2
我試圖實施情景半梯度薩爾薩估計問題描述薩頓的書中解決Mountain Car Task
。要近似q
我想使用neural network
。因此,我想出了this的代碼。但可悲的是,我的經紀人並沒有真正學習解決這個任務。在某些情節中,解決方案非常快(100-200步),但有時代理人需要超過30k步。我認爲,我在實施過程中犯了一些基本錯誤,但我無法自己找到它。有人可以幫助我,並指出我的實施中的錯誤/錯誤嗎?薩爾薩與神經網絡解決山車任務