我正在學習增強學習和閱讀薩頓的大學課程的書。除了經典的PD,MC,TD和Q-Learning算法之外,我正在閱讀關於策略梯度方法和遺傳算法以解決決策問題。 我以前從未有過這方面的經驗,而且我在理解什麼時候技術應該比其他技術更優先。我有一些想法,但我不確定他們。有人可以簡單地解釋或告訴我一個來源,我可以找到有關應該使用某些方法的典型情況的信息嗎?據我所知:何時使用某種強化學習算法?
- 只有當MDP幾乎沒有動作和狀態,模型是已知的,因爲它是非常昂貴的,應該使用動態規劃和線性規劃。但是當DP比LP好?
- 當我沒有問題的模型,但我可以生成樣本時使用蒙特卡羅方法。它沒有偏見,但有很大的差異。
- 當MC方法需要太多的樣本具有低方差時,應使用時間差分方法。但是什麼時候我應該使用TD和Q-Learning?
- 政策梯度和遺傳算法適用於連續的MDP。但是當一個比另一個更好時?
更確切地說,我認爲要選擇學習方法程序員應該問himlself以下問題:
- 沒有代理學習在線還是離線?
- 我們可以分開探索和開發階段嗎?
- 我們可以進行足夠的探索嗎?
- 是MDP有限還是無限的視界?
- 是狀態和動作是否連續?
但我不知道這些問題的細節如何影響學習方法的選擇。 我希望有些程序員已經有一些關於RL方法的經驗,並且可以幫助我更好地理解他們的應用程序。
我不同意關於脫機案例的Q-Learning。 Q-Learning可以很容易地在線完成,從我所看到的,它可以很好地融合到在線案例中。 – Alejandro
我不同意。正如你現在所說的,Q-learning是一種非政策方法。這意味着它在執行當前策略時更新另一個策略。另一方面,SARSA是一種政策上的方法,它更新了它正在更新的相同政策。因此,像SARSA這樣的算法正在被用於控制目的,而他們正在學習一項任務。你可以在下面閱讀更多關於它的內容:'強化學習:簡介' – NKN
我沒有明確指出SARSA不在線,因爲我在評論中沒有提到SARSA。我只是說在這兩種情況下都可以使用Q-learning。 – Alejandro