強化學習中價值迭代的基礎案例

我正在嘗試爲'3x4多風格gridworld'MDP實施價值迭代，並且無法理解Bellman等式及其實現。強化學習中價值迭代的基礎案例

，我有工作Bellman方程的形式是這樣的

想這是我與工作gridword，我想找到的值（U(s)）的瓦標X.

（從this視頻圖片快照）

所有瓷磚的回報期望終端瓷磚被定義爲零，並且還假設如果嘗試在特定方向上移動，則實際移動將發生在右側的小概率與預期移動的角度。（如果您嘗試從x下移，您將以0.8的概率下降，但會以每個概率0.1向左或向右移動）

現在，當您嘗試解開位置x的bellman方程時，三個鄰居（U(s')）的行動'UP'。原始位置本身（因爲它不能向上移動）的概率爲0.8，其右邊的+1狀態的概率爲0.1，並且該區域的概率爲0.1。這些形成了s'狀態。

所以找到狀態X值的函數會遞歸地調用所有的狀態s''s。其中的+1狀態不是問題，因爲它是一個終端磁貼，它將構成基本情況。但其中一個狀態是原始狀態X本身，我不明白這種情況在遞歸調用中將如何終止。第三塊瓷磚也存在同樣的問題;它會在所有的電話它的鄰居等等之後終止嗎？

值迭代不是自己終止;它只是漸近地收斂到正確的值，並且獎勵不是無限的。

實際上，只要折扣期限（在遞歸的每個級別用γ指數）變得如此之小以至於繼續計算下一個U(s')就不會對已經累積的值產生影響，您可以終止。

2017-07-03 00:52:13

回答