10

我在大學裏的一門名爲「智能機器」的課程。我們與增強學習的3種方法進行了介紹,並與我們給出了何時使用它們的直覺,我引述:Q學習與時間差異與基於模型的強化學習

  1. Q學習 - 最好的時候MDP不能得到解決。
  2. 時間差異學習 - 當MDP已知或可以學習但無法解決時最好。
  3. 基於模型 - 當MDP無法學習時最好。

我問了一個例子,說明爲什麼在QL等上使用TDL,講師找不到一個。

那麼有沒有什麼好的例子可以選擇其中一種方法?謝謝。

+2

Q學習是一種時間差分算法。 –

+0

Q-Learning是否用於計算Q值,而用於計算Value函數的時間差異學習? [他們是相關的,但我猜不完全一樣]還是我誤會了? – StationaryTraveller

+3

V是狀態值函數,Q是動作值函數,而Q學習是特定的關策略時間差學習算法。您可以使用不同的TD或非TD方法學習Q或V,這兩種方法都可以基於模型或不基於模型。 –

回答

19

時間差異an approach to learning how to predict a quantity that depends on future values of a given signal。 它可以用來學習V函數和Q函數,而Q學習是一個特定的TD算法,用於學習Q函數。 正如@StationaryTraveller所述,您需要使用Q函數來執行某個操作(例如,遵循epsilon-greedy策略)。如果只有V函數,則仍然可以遍歷所有可能的下一個狀態並選擇將您引導至具有最高V值的狀態的動作,從而得出Q函數。 有關示例和更多見解,我建議classic book from Sutton and Bartothis是一個更新的進展版)。

RL你不學習狀態轉換功能(模型)只依靠樣品無模型。 但是,您可能也有興趣瞭解它,例如因爲您無法收集許多樣本並想要生成一些虛擬樣本。在這種情況下,我們談論基於模型的 RL。 基於模型的RL在機器人技術中非常常見,您無法執行許多真實的仿真或機器人會中斷。 This是一個很好的調查與許多例子(但它只談論政策搜索算法)。 又如看看this paper。在這裏作者學習了一個策略 - 一個高斯過程來逼近機器人的正向模型,以便模擬軌跡並減少真正的機器人交互的數量。