2017-10-17 75 views
0

有沒有人可以幫我設計狀態空間圖馬爾科夫決策過程從伯克利CS188賽車的例子。代表馬爾可夫過程的狀態空間圖的賽車示例

賽車例如 enter image description here

例如,我可以做100個動作,我想運行值迭代得到最大化回報我最好的政策。

當我只有3個狀態(酷,溫暖和過熱)時,我不知道如何添加「結束」狀態並完成MDP。

我在考慮擁有100個冷靜狀態和100個暖狀態,例如從Cool1你可以去Cool2,Warm2或Overheated等等。 在這個例子中,我接近0的狀態值高於接近100的狀態。

我在MDP中丟失了什麼嗎?

+0

人們可能會注意到,FSA的[過熱]狀態是終端狀態(結束)的追求。 – user3666197

回答

0

應該只有3個可能的狀態。 「冷」和「暖」狀態是反覆發生的,並且「過熱」狀態正在吸收,因爲離開狀態的概率是0.

對於「冷」和「暖」可以有兩個動作, 「如問題陳述中所述的那樣。概率轉換矩陣和階躍獎勵可以從圖表中輕鬆建立。例如,P(走得快,從冷到暖)= 0.5,R(從冷到暖,走得很快)= 2.

根據目標,可以將它解決爲有限的視界或無限的視界MDP。