我需要一些幫助來解決使用Q學習算法的問題。Qlearning - 定義狀態和獎勵
問題描述:
我有一個火箭模擬器,其中,所述火箭採取隨機路徑和也崩潰有時。火箭有3種不同的發動機可以打開或關閉。取決於哪個(些)發動機被激活,火箭飛向不同的方向。
用於開啓引擎關閉/開啓功能可
任務:
構建Q學習控制器,它會變成火箭面對所有的時間。
讀取火箭角度的傳感器可用作輸入。
我的解決辦法:
我有以下狀態:
我也有下列行爲:
- 所有發動機關閉
- 左發動機上
- 上
- 發動機中右發動機上
- 左右的
- 左邊和中間的
- 右兩側及上
與以下獎勵:
角度= 0 ,獎勵= 100 所有其他角度,獎勵= 0
問題:
現在回答這個問題,這是獎勵和狀態的好選擇嗎?我能改善我的解決方案嗎?在其他角度獲得更多獎勵會更好嗎?
在此先感謝
這場比賽的目標是什麼?登月火箭般登月?還是它需要僅僅飛行而不會崩潰? –
嗨!目標是讓它面向北方並向上飛。它總是飛行,但我需要使它向上飛行。它不能崩潰。當它到達北方並且不能走得更遠時,它就會重新開始。 – mrjasmin
。使用我目前的解決方案,它向上飛行,但沒有優化。 – mrjasmin