4

我想知道在OpenAI Gym(https://gym.openai.com/)中觀察CartPole-v0的規範。觀察意義 - OpenAI Gym

例如,在下面的代碼輸出observation。一個觀察就像[-0.061586 -0.75893141 0.05793238 1.15547541]我想知道數字的意思。並且我想通過任何方式來了解其他Environments的規格,例如MountainCar-v0,MsPacman-v0等等。

我試圖讀取https://github.com/openai/gym,但我不知道。你能告訴我如何知道規格嗎?

import gym 
env = gym.make('CartPole-v0') 
for i_episode in range(20): 
    observation = env.reset() 
    for t in range(100): 
     env.render() 
     print(observation) 
     action = env.action_space.sample() 
     observation, reward, done, info = env.step(action) 
     if done: 
      print("Episode finished after {} timesteps".format(t+1)) 
      break 

(從https://gym.openai.com/docs

輸出以下

[-0.061586 -0.75893141 0.05793238 1.15547541] 
[-0.07676463 -0.95475889 0.08104189 1.46574644] 
[-0.0958598 -1.15077434 0.11035682 1.78260485] 
[-0.11887529 -0.95705275 0.14600892 1.5261692 ] 
[-0.13801635 -0.7639636 0.1765323 1.28239155] 
[-0.15329562 -0.57147373 0.20218013 1.04977545] 
Episode finished after 14 timesteps 
[-0.02786724 0.00361763 -0.03938967 -0.01611184] 
[-0.02779488 -0.19091794 -0.03971191 0.26388759] 
[-0.03161324 0.00474768 -0.03443415 -0.04105167] 
+0

相信這是類https://github.com/openai/gym/blob/master/gym/envs /classic_control/cartpole.py – fafl

回答

3

描述OpenAI健身房網站每個環境款後,你總是有一個詳細解釋了環境基準,例如,在CartPole-v0的情況下,您可以在以下位置找到所有詳細信息:

[Barto83] AG巴託,RS Sutton和CW安德森,「神經樣自適應元素,可以攻堅克難學習控制問題」,對系統,人與控制論IEEE交易,1983年

在那篇文章中,你可以閱讀該購物車極有四個狀態變量:購物車的軌道上

  1. 位置
  2. 與垂直
  3. 車速度
  4. 變化率角的極的的角度

因此,observation只是一個具有四個狀態變量值的向量。

類似地,MountainCar-v0的細節可以在

[Moore90]中找到甲摩爾,有效的內存基於學習的機器人控制,博士論文,劍橋大學,1990

等。

3

OpenAI Gym中使用的觀察空間與原始紙張不完全相同。看看OpenAI的wiki找到答案。觀察空間是一個4 d的空間,並且每個維度如下:

Num Observation Min Max 0 Cart Position -2.4 2.4 1 Cart Velocity -Inf Inf 2 Pole Angle ~ -41.8° ~ 41.8° 3 Pole Velocity At Tip -Inf Inf