推廣基於模型的強化學習算法與大型狀態和動作空間的策略

我正在使用基於模型的單一代理強化學習方法進行自主飛行。推廣基於模型的強化學習算法與大型狀態和動作空間的策略

在這個項目中，我使用模擬器來收集訓練數據（狀態，動作，結束狀態），以便Locally Weighted Linear Regression算法可以學習MODEL。

STATE由向量定義：[Pitch , Yaw , Roll , Acceleration]來定義無人機在空間中的位置。當向POLICY它有一個其它特徵[WantedTrajectory]

的ACTION由向量太定義：[PowerOfMotor1 , PowerOfMotor2 , PowerOfMotor3 , PowerOfMotor4]

的REWARD取決於所採取的軌跡的精度被計算：給定一個初始空間的狀態，一想要的軌跡和結束的空間狀態越接近實際採取的軌跡就是希望得到的回報越小。

爲policy iteration的算法如下：

start from a state S0 

loop  

     1) select the best action according to the Policy 

     2) use LWLR to find the ending state 

     3) calculate reward 

     4) update generalized V function 



endloop;

這種方式採取的行動還取決於軌跡通緝（由用戶選用），代理人自主選擇4臺電機的功率（嘗試採取想要的軌跡，並有一個更大的，負面的，較少的回報），並且政策是動態的，因爲它取決於更新的價值函數。

唯一的問題是，選擇POLICY如下（S =間距，偏航，滾動，加速，WantedTrajectory）：

π(S) = argmax_a (V(LWLR(S,a)))

（因此，所有的動作之間的一個，從這個國家將引領因爲行動空間非常大，所以計算方面的成本很高。

有沒有一種方法來推廣一個POLOCY取決於已經廣義的VALUE FUNCTION？

來源

2015-08-25 user3764449

你爲什麼不使用動作離散？和狀態的函數近似將是很好的。 – NKN

我認爲使用策略漸變的actor-critic方法對你很有用。

在這種情況下，您可以使用根據您的價值函數根據客觀函數進行調整的策略策略。有一些進一步的改進如使用優勢功能等

銀鴻打了一個漂亮的視頻，你可能會發現有用：

https://www.youtube.com/watch?v=KHZVXao4qXs&index=7&list=PL5X3mDkKaJrL42i_jhE4N-p6E2Ol62Ofa

來源

2016-02-27 12:05:19 purpletentacle

推廣基於模型的強化學習算法與大型狀態和動作空間的策略

回答

相關問題