代表馬爾可夫過程的狀態空間圖的賽車示例

有沒有人可以幫我設計狀態空間圖馬爾科夫決策過程從伯克利CS188賽車的例子。代表馬爾可夫過程的狀態空間圖的賽車示例

賽車例如

例如，我可以做100個動作，我想運行值迭代得到最大化回報我最好的政策。

當我只有3個狀態（酷，溫暖和過熱）時，我不知道如何添加「結束」狀態並完成MDP。

我在考慮擁有100個冷靜狀態和100個暖狀態，例如從Cool1你可以去Cool2，Warm2或Overheated等等。在這個例子中，我接近0的狀態值高於接近100的狀態。

我在MDP中丟失了什麼嗎？

2017-10-17 Pavel

人們可能會注意到，FSA的[過熱]狀態是終端狀態（結束）的追求。 – user3666197

應該只有3個可能的狀態。「冷」和「暖」狀態是反覆發生的，並且「過熱」狀態正在吸收，因爲離開狀態的概率是0.

對於「冷」和「暖」可以有兩個動作，「如問題陳述中所述的那樣。概率轉換矩陣和階躍獎勵可以從圖表中輕鬆建立。例如，P（走得快，從冷到暖）= 0.5，R（從冷到暖，走得很快）= 2.

根據目標，可以將它解決爲有限的視界或無限的視界MDP。

2017-12-02 20:50:03

回答