Q

在Open AI Gym中實現策略迭代方法

2017-08-01 60 views 2 likes

2

我正在閱讀Sutton的「鋼筋學習」& Barto，我試圖自己寫一些方法。在Open AI Gym中實現策略迭代方法

策略迭代是我目前正在使用的策略迭代。我正在嘗試使用OpenAI Gym來解決一個簡單的問題，例如CartPole或連續山地車。

但是，對於策略迭代，我需要狀態之間的轉換矩陣和獎勵矩陣。

這些都可以從您在OpenAI Gym中構建的'環境'中獲得。

我正在使用python。

如果不是，我該如何計算這些值，並使用環境？

2017-08-01 usman Farooq

A

回答

1

不，OpenAI Gym環境不會爲您提供該表格中的信息。爲了收集這些信息，您需要通過抽樣來探索環境：即選擇行動並接受觀察和獎勵。有了這些樣本，你可以估計它們。

近似這些值的一個基本方法是使用LSPI（最小二乘策略迭代），據我所知，你也可以在Sutton中找到更多關於它的內容。

2017-08-02 18:12:16 purpletentacle

相關問題