0
有沒有人可以幫我設計狀態空間圖馬爾科夫決策過程從伯克利CS188賽車的例子。代表馬爾可夫過程的狀態空間圖的賽車示例
例如,我可以做100個動作,我想運行值迭代得到最大化回報我最好的政策。
當我只有3個狀態(酷,溫暖和過熱)時,我不知道如何添加「結束」狀態並完成MDP。
我在考慮擁有100個冷靜狀態和100個暖狀態,例如從Cool1你可以去Cool2,Warm2或Overheated等等。 在這個例子中,我接近0的狀態值高於接近100的狀態。
我在MDP中丟失了什麼嗎?
人們可能會注意到,FSA的[過熱]狀態是終端狀態(結束)的追求。 – user3666197