我正在嘗試爲'3x4多風格gridworld'MDP實施價值迭代,並且無法理解Bellman等式及其實現。強化學習中價值迭代的基礎案例
,我有工作Bellman方程的形式是這樣的
想這是我與工作gridword,我想找到的值(U(s)
)的瓦標X.
(從this視頻圖片快照)
所有瓷磚的回報期望終端瓷磚被定義爲零,並且還假設如果嘗試在特定方向上移動,則實際移動將發生在右側的小概率與預期移動的角度。 (如果您嘗試從x下移,您將以0.8的概率下降,但會以每個概率0.1向左或向右移動)
現在,當您嘗試解開位置x的bellman方程時,三個鄰居(U(s')
)的行動'UP'。原始位置本身(因爲它不能向上移動)的概率爲0.8,其右邊的+1狀態的概率爲0.1,並且該區域的概率爲0.1。這些形成了s'
狀態。
所以找到狀態X值的函數會遞歸地調用所有的狀態s'
's。其中的+1狀態不是問題,因爲它是一個終端磁貼,它將構成基本情況。但其中一個狀態是原始狀態X本身,我不明白這種情況在遞歸調用中將如何終止。第三塊瓷磚也存在同樣的問題;它會在所有的電話它的鄰居等等之後終止嗎?