我讀過的所有reinforcement learning算法通常適用於具有固定數量的動作的單個代理。是否有任何強化學習算法用於在考慮可變數量的行爲的同時作出決定?例如,如何在電腦遊戲中應用RL算法,其中一名玩家控制N名士兵,每名士兵都會根據其條件採取隨機數量的動作?你不能爲全球決策者(即「將軍」)制定固定數量的行動,因爲隨着士兵的創建和死亡,可用行動不斷變化。而且你不能在士兵級別制定固定數量的行動,因爲士兵的行動是基於其直接環境的條件。如果士兵看不到對手,那麼它可能只能走路,而如果它看到10個對手,那麼它有10個新的可能動作,攻擊10個對手中的1個。強化學習與變量行動
8
A
回答
4
你描述的是沒有什麼不尋常的。強化學習是一種找到Markov Decision Process的價值函數的方法。在MDP中,每個州都有自己的一套行動。要進行強化學習應用程序,您必須清楚地定義您的問題中的狀態,行爲和獎勵。
0
如果你對每個士兵有一些可用或不可用的動作取決於某些條件,那麼你仍然可以將這個動作模型化爲一組固定的動作。例如:
- 每個每個士兵
- 的全套動作的創建一個「實用價值」選擇價值最高的動作,而忽略那些無法在給定時間
如果您有多個可能的目標,則應用同樣的原則,但此時您將效用函數建模爲將目標指定作爲附加參數,並多次運行評估函數(每個目標一個)。您挑選具有最高「攻擊實用程序」的目標。
相關問題
- 1. 強化學習
- 2. 強化學習 - 從餘暉TD學習
- 3. C++強化學習庫
- 4. Q學習與時間差異與基於模型的強化學習
- 5. 學習VBA變量
- 6. 動態環境下的強化學習與大型國家行動空間
- 7. 可以強化學習代理學習離散分佈
- 8. 強化學習 - 從原始像素學習
- 9. 什麼是ph代表強化學習
- 10. 強化學習玩具項目
- 11. 強化學習的良好實現?
- 12. 分層強化學習的實現
- 13. 強化學習俄羅斯方塊
- 14. Java迷宮解決和強化學習
- 15. Pybrain強化學習;維狀態
- 16. 增強學習POMDP
- 17. 重量更新 - 強化學習+神經網絡
- 18. 通過強化學習學習權重的神經網絡中的行動和獎勵是什麼
- 19. Pybrain增強學習動態輸出
- 20. 在NetLogo中實施強化學習(在多智能體模型中學習)
- 21. 如何應用UI學習自動化的深度學習?
- 22. NEAT vs增強學習
- 23. 學習矢量
- 24. 深度學習與機器學習
- 25. spaCy和scikit學習矢量化
- 26. 帶強化學習的多標準優化
- 27. 用於python強化學習的模擬和可視化庫?
- 28. 進化計算是一種強化學習的方法嗎?
- 29. 強化學習 - 根據得分優化權重
- 30. Coursera機器學習:漸變下降矢量化
就像我說的,士兵也有不同數量的動作。將攻擊目標設爲參數意味着什麼? – Cerin
我的意思是:讓RL算法獲取有關目標或特定操作的信息,這些信息是您正在考慮的額外輸入。然後,您可以根據需要將其應用於多個目標和/或操作。您只需針對您正在考慮的每個目標和/或操作信息重新運行該算法。 – mikera