2017-07-02 64 views
1

我正在嘗試爲'3x4多風格gridworld'MDP實施價值迭代,並且無法理解Bellman等式及其實現。強化學習中價值迭代的基礎案例

,我有工作Bellman方程的形式是這樣的

enter image description here

想這是我與工作gridword,我想找到的值(U(s))的瓦標X.

enter image description here

(從this視頻圖片快照)

所有瓷磚的回報期望終端瓷磚被定義爲零,並且還假設如果嘗試在特定方向上移動,則實際移動將發生在右側的小概率與預期移動的角度。 (如果您嘗試從x下移,您將以0.8的概率下降,但會以每個概率0.1向左或向右移動)

現在,當您嘗試解開位置x的bellman方程時,三個鄰居(U(s'))的行動'UP'。原始位置本身(因爲它不能向上移動)的概率爲0.8,其右邊的+1狀態的概率爲0.1,並且該區域的概率爲0.1。這些形成了s'狀態。

所以找到狀態X值的函數會遞歸地調用所有的狀態s''s。其中的+1狀態不是問題,因爲它是一個終端磁貼,它將構成基本情況。但其中一個狀態是原始狀態X本身,我不明白這種情況在遞歸調用中將如何終止。第三塊瓷磚也存在同樣的問題;它會在所有的電話它的鄰居等等之後終止嗎?

回答

2

值迭代不是自己終止;它只是漸近地收斂到正確的值,並且獎勵不是無限的。

實際上,只要折扣期限(在遞歸的每個級別用γ指數)變得如此之小以至於繼續計算下一個U(s')就不會對已經累積的值產生影響,您可以終止。