格子世界表示我試圖想出一個2-d格世界的,其利用的Q功能的神經網絡的Q學習算法的狀態更好的代表性。 在教程Q-learning with Neural Networks中,網格表示爲整數的三維數組(0或1)。第一個和第二個維度表示網格世界中對象的位置。第三維編碼它是哪個對象。因此,對於其中包含4個對象的4x4網格,您將代表具有64個元素的3維數組(4x4x4)的狀態。這意味着,輸入層中的神經網絡將
我想獲得一些關於如何使用函數逼近的Q學習算法的有用說明。對於基本的Q學習算法,我找到了一些例子,我想我也明白它。如果使用函數逼近,我會遇到麻煩。有人可以通過一個簡短的例子來解釋它是如何工作的嗎? 我所知道的: Istead使用矩陣,我們使用的功能和參數Q值的。 使用派生函數和參數的線性組合近似。 更新參數。 我已經檢查本文:Q-learning with function approximatio
我已閱讀此頁的斯坦福 - https://web.stanford.edu/group/pdplab/pdphandbook/handbookch10.html。我無法理解TD學習如何用於神經網絡。我正在嘗試製作一個跳棋AI,它將使用TD學習,類似於他們在西洋雙陸棋中所實施的功能。請解釋TD Back-Propagation的工作。 我已經提到這個問題 - Neural Network and T
我對神經網絡很陌生。我已經做了一些閱讀,並按照this book中的示例實施了感知器。結果可以在aronadler.com/neural-net上查看。這是一個簡單的感知器,可以知道某個點是高於還是低於一條線。它是用JavaScript和PaperJS編寫的畫布圖形。 但是,我想更進一步。我創建了一個simple game in paperjs,您可以通過向左和向右箭頭鍵進行操縱來控制車輛,並通過