2

我正在閱讀Sutton的「鋼筋學習」& Barto,我試圖自己寫一些方法。在Open AI Gym中實現策略迭代方法

策略迭代是我目前正在使用的策略迭代。我正在嘗試使用OpenAI Gym來解決一個簡單的問題,例如CartPole或連續山地車。

但是,對於策略迭代,我需要狀態之間的轉換矩陣和獎勵矩陣。

這些都可以從您在OpenAI Gym中構建的'環境'中獲得。

我正在使用python。

如果不是,我該如何計算這些值,並使用環境?

回答

1

不,OpenAI Gym環境不會爲您提供該表格中的信息。爲了收集這些信息,您需要通過抽樣來探索環境:即選擇行動並接受觀察和獎勵。有了這些樣本,你可以估計它們。

近似這些值的一個基本方法是使用LSPI(最小二乘策略迭代),據我所知,你也可以在Sutton中找到更多關於它的內容。