我正在使用基於模型的單一代理強化學習方法進行自主飛行。推廣基於模型的強化學習算法與大型狀態和動作空間的策略
在這個項目中,我使用模擬器來收集訓練數據(狀態,動作,結束狀態),以便Locally Weighted Linear Regression
算法可以學習MODEL
。
STATE
由向量定義:[Pitch , Yaw , Roll , Acceleration]
來定義無人機在空間中的位置。 當向POLICY
它有一個其它特徵[WantedTrajectory]
的ACTION
由向量太定義:[PowerOfMotor1 , PowerOfMotor2 , PowerOfMotor3 , PowerOfMotor4]
的REWARD
取決於所採取的軌跡的精度被計算:給定一個初始空間的狀態,一想要的軌跡和結束的空間狀態越接近實際採取的軌跡就是希望得到的回報越小。
爲policy iteration
的算法如下:
start from a state S0
loop
1) select the best action according to the Policy
2) use LWLR to find the ending state
3) calculate reward
4) update generalized V function
endloop;
這種方式採取的行動還取決於軌跡通緝(由用戶選用),代理人自主選擇4臺電機的功率(嘗試採取想要的軌跡,並有一個更大的,負面的,較少的回報),並且政策是動態的,因爲它取決於更新的價值函數。
唯一的問題是,選擇POLICY
如下(S =間距,偏航,滾動,加速,WantedTrajectory):
π(S) = argmax_a (V(LWLR(S,a)))
(因此,所有的動作之間的一個,從這個國家將引領因爲行動空間非常大,所以計算方面的成本很高。
有沒有一種方法來推廣一個POLOCY取決於已經廣義的VALUE FUNCTION?
你爲什麼不使用動作離散?和狀態的函數近似將是很好的。 – NKN