Q學習與時間差異與基於模型的強化學習

我在大學裏的一門名爲「智能機器」的課程。我們與增強學習的3種方法進行了介紹，並與我們給出了何時使用它們的直覺，我引述：Q學習與時間差異與基於模型的強化學習

Q學習 - 最好的時候MDP不能得到解決。
時間差異學習 - 當MDP已知或可以學習但無法解決時最好。
基於模型 - 當MDP無法學習時最好。

我問了一個例子，說明爲什麼在QL等上使用TDL，講師找不到一個。

那麼有沒有什麼好的例子可以選擇其中一種方法？謝謝。

來源

2015-12-09 StationaryTraveller

Q學習是一種時間差分算法。 –

Q-Learning是否用於計算Q值，而用於計算Value函數的時間差異學習？ [他們是相關的，但我猜不完全一樣]還是我誤會了？ – StationaryTraveller

V是狀態值函數，Q是動作值函數，而Q學習是特定的關策略時間差學習算法。您可以使用不同的TD或非TD方法學習Q或V，這兩種方法都可以基於模型或不基於模型。 –

時間差異是an approach to learning how to predict a quantity that depends on future values of a given signal。它可以用來學習V函數和Q函數，而Q學習是一個特定的TD算法，用於學習Q函數。正如@StationaryTraveller所述，您需要使用Q函數來執行某個操作（例如，遵循epsilon-greedy策略）。如果只有V函數，則仍然可以遍歷所有可能的下一個狀態並選擇將您引導至具有最高V值的狀態的動作，從而得出Q函數。有關示例和更多見解，我建議classic book from Sutton and Barto（this是一個更新的進展版）。

在 RL你不學習狀態轉換功能（模型）只依靠樣品無模型。但是，您可能也有興趣瞭解它，例如因爲您無法收集許多樣本並想要生成一些虛擬樣本。在這種情況下，我們談論基於模型的 RL。基於模型的RL在機器人技術中非常常見，您無法執行許多真實的仿真或機器人會中斷。 This是一個很好的調查與許多例子（但它只談論政策搜索算法）。又如看看this paper。在這裏作者學習了一個策略 - 一個高斯過程來逼近機器人的正向模型，以便模擬軌跡並減少真正的機器人交互的數量。

來源

2015-12-14 09:20:37 Simon

Q學習與時間差異與基於模型的強化學習

回答

相關問題