觀察意義 - OpenAI Gym

我想知道在OpenAI Gym（https://gym.openai.com/）中觀察CartPole-v0的規範。觀察意義 - OpenAI Gym

例如，在下面的代碼輸出observation。一個觀察就像[-0.061586 -0.75893141 0.05793238 1.15547541]我想知道數字的意思。並且我想通過任何方式來了解其他Environments的規格，例如MountainCar-v0,MsPacman-v0等等。

我試圖讀取https://github.com/openai/gym，但我不知道。你能告訴我如何知道規格嗎？

import gym 
env = gym.make('CartPole-v0') 
for i_episode in range(20): 
    observation = env.reset() 
    for t in range(100): 
     env.render() 
     print(observation) 
     action = env.action_space.sample() 
     observation, reward, done, info = env.step(action) 
     if done: 
      print("Episode finished after {} timesteps".format(t+1)) 
      break

（從https://gym.openai.com/docs）

輸出以下

[-0.061586 -0.75893141 0.05793238 1.15547541] 
[-0.07676463 -0.95475889 0.08104189 1.46574644] 
[-0.0958598 -1.15077434 0.11035682 1.78260485] 
[-0.11887529 -0.95705275 0.14600892 1.5261692 ] 
[-0.13801635 -0.7639636 0.1765323 1.28239155] 
[-0.15329562 -0.57147373 0.20218013 1.04977545] 
Episode finished after 14 timesteps 
[-0.02786724 0.00361763 -0.03938967 -0.01611184] 
[-0.02779488 -0.19091794 -0.03971191 0.26388759] 
[-0.03161324 0.00474768 -0.03443415 -0.04105167]

來源

2016-09-06 redstone

相信這是類https://github.com/openai/gym/blob/master/gym/envs /classic_control/cartpole.py – fafl

描述OpenAI健身房網站每個環境款後，你總是有一個詳細解釋了環境基準，例如，在CartPole-v0的情況下，您可以在以下位置找到所有詳細信息：

[Barto83] AG巴託，RS Sutton和CW安德森，「神經樣自適應元素，可以攻堅克難學習控制問題」，對系統，人與控制論IEEE交易，1983年

在那篇文章中，你可以閱讀該購物車極有四個狀態變量：購物車的軌道上

位置
與垂直
車速度
變化率角的極的的角度

因此，observation只是一個具有四個狀態變量值的向量。

類似地，MountainCar-v0的細節可以在

[Moore90]中找到甲摩爾，有效的內存基於學習的機器人控制，博士論文，劍橋大學，1990

等。

來源

2016-11-04 08:43:14

OpenAI Gym中使用的觀察空間與原始紙張不完全相同。看看OpenAI的wiki找到答案。觀察空間是一個4 d的空間，並且每個維度如下：

Num Observation Min Max 0 Cart Position -2.4 2.4 1 Cart Velocity -Inf Inf 2 Pole Angle ~ -41.8° ~ 41.8° 3 Pole Velocity At Tip -Inf Inf

來源

2017-03-04 00:35:16 RoastDuck

觀察意義 - OpenAI Gym

回答

相關問題