在網格世界中,如果我開始按照初始策略採取行動作爲可用操作之間的離散分佈。假設我在每個州有四個行動(北,南,東,西),現在我決定在每個州50%的時間我會選擇行動「北」。 30%的時間我會選擇行動「南」。 10%的時間行爲「東」,剩下10%的行動「西」。它對最佳政策會產生什麼影響?如果我在行動中選擇了統一的隨機分配。我想更頻繁地探索一個動作會讓q值對於那個狀態和動作對快速收斂,而且會更真實。但沒有辦法,如果我探索一個行動更多的其q值會更多。請告訴我我是否正確。可以強化學習代理學習離散分佈
0
A
回答
3
如果你的發行版允許你進入你的世界中的任何狀態,那麼隨着你的發行次數接近無限,這將不會有任何效果。也就是說,無論從哪個概率分佈中抽取您的行爲,您都將獲得恰好爲的最佳策略(假設只有一個最優策略)。
當然這在理論上適用,但在實踐中,您可能會注意到改變概率分佈的另一個副作用。
假設您處於一個只允許您選擇左側或右側的世界。如果目標總是在左側,並且選擇動作的概率爲99%,那麼您將非常快速地獲得最優策略。如果選擇左側動作的概率爲1%,那麼您將非常緩慢地獲得最優策略。無論哪種方式,有足夠的情節,你將獲得最佳政策。
這同樣適用於概率分佈在情節期間可能改變的e-greedy方法。
相關問題
- 1. 強化學習
- 2. 強化學習 - 從餘暉TD學習
- 3. Q學習代理的學習率
- 4. C++強化學習庫
- 5. 什麼是ph代表強化學習
- 6. 分層強化學習的實現
- 7. 強化學習 - 從原始像素學習
- 8. 增強學習POMDP
- 9. scikit學習離散化分類數值數據
- 10. 分享點2010學習項目學習
- 11. 想實現強化學習連接四個代理程序
- 12. 如果不先學習PHP,是否可以學習Zend框架?
- 13. 強化學習玩具項目
- 14. 強化學習的良好實現?
- 15. 強化學習俄羅斯方塊
- 16. Java迷宮解決和強化學習
- 17. Pybrain強化學習;維狀態
- 18. 強化學習與變量行動
- 19. Scikit學習分類
- 20. NEAT vs增強學習
- 21. 學習Python練習
- 22. 學習去離線世界
- 23. 我可以去哪裏學習和理解布料物理?
- 24. 如果不涉及「學習」,算法可以分類爲「無監督學習」嗎?
- 25. Q學習與時間差異與基於模型的強化學習
- 26. 在NetLogo中實施強化學習(在多智能體模型中學習)
- 27. 機器學習在Python:scikit學習/ Pybrain
- 28. Node.js學習指南或學習計劃
- 29. 在學習JQuery之前學習JavaScript?
- 30. 學習版本控制,並學習它
因此,這意味着我們的目標永遠都是安全的,可以採取均勻隨機分佈的行動。因爲那樣我們將總是在迭代中找到最優策略(在最小與無劇集接近無窮之間)。在分配之後採取行動並沒有特別的好處,除非我有關於目標狀態的特殊信息。就像你所說的「目標總是在左邊」。 – Prabir
我想我會迴避說它總是*安全的使用統一的隨機分佈。任何分配都是安全的,只要有可能在分配後進入每個狀態。根據環境的不同,某些分配可能具有更快收斂的優點。即使對環境沒有進一步的瞭解,情況也是如此,但只有通過實驗才能找到。 – Andnp