2
我正在閱讀Sutton的「鋼筋學習」& Barto,我試圖自己寫一些方法。在Open AI Gym中實現策略迭代方法
策略迭代是我目前正在使用的策略迭代。我正在嘗試使用OpenAI Gym來解決一個簡單的問題,例如CartPole或連續山地車。
但是,對於策略迭代,我需要狀態之間的轉換矩陣和獎勵矩陣。
這些都可以從您在OpenAI Gym中構建的'環境'中獲得。
我正在使用python。
如果不是,我該如何計算這些值,並使用環境?