openai-gym

    0熱度

    1回答

    我想安裝整個Open AI gym包。 後(我在Mac)brew install cmake,sudo pip install gym[all]給我下面的錯誤 我使用蟒蛇4.3.22。在conda虛擬環境中,我是而不是。 which python輸出/anaconda/bin/python。蟒蛇使用的翻譯器是python 3.6.1。只需運行sudo pip gym(它必須是最低版本)運行良好。

    0熱度

    2回答

    有沒有一種方法可以讓我實現在每個步驟動作空間發生變化的openai環境?

    2熱度

    1回答

    我嘗試在openAi健身房運行此代碼。但它不能。 import mujoco_py import gym from os.path import dirname env = gym.make('Hopper-v1') env.reset() for _ in range(1000): env.render() env.step(env.action_space.sa

    1熱度

    1回答

    我從https://github.com/bulletphysics/bullet3.git下載了bullet3 github存儲庫(Bullet Physics SDK),其中包含用於運行增強學習算法的OpenAI Gym示例的python綁定。 我試着運行以下目錄中的kuka_grasp_block_playback.py示例:bullet3-master/examples/pybullet/

    3熱度

    2回答

    是否可以使用openai的gym environments進行多代理遊戲?具體來說,我想模擬一個有四名球員(代理商)的紙牌遊戲。下一回合開始進行回合的玩家。我將如何建模球員之間的必要協調(例如,接下來是誰)?最終,我想對四個互相對抗的代理人進行強化學習。

    0熱度

    1回答

    我想用keyboard_agent.py玩Breakout-v0。 當我開始與環境: python [...]/gym/examples/agents/keyboard_agent.py "Breakout-v0" 本場比賽開始,我可以打第一輪沒有問題。但我不能讓它重新啓動! 在代碼中我們有: if key==0xff0d: human_wants_restart = True ,我不能去

    1熱度

    1回答

    我正在實施我使用tensorflow的第一個強化深度學習模型,因爲我正在實施cartpole problem。 我已經使用了六層的深層神經網絡,它對隨機生成的數據集進行訓練,分數高於閾值。問題在於模型沒有收斂,最終得分平均保持在10分左右。 建議在閱讀某些帖子後,我申請正規化和輟學,以減少可能發生的任何過度擬合,但仍然沒有運氣。我也嘗試減少學習率。 剛剛訓練完一批後,精確度也保持在0.60左右,盡

    0熱度

    1回答

    在某些OpenAI健身房環境中,有一個「ram」版本。例如:Breakout-v0和Breakout-ram-v0。 使用Breakout-ram-v0,每個觀測是長度128的陣列 問題:如何變換一個觀察的Breakout-v0(這是一個160×210的圖像)轉換成的Breakout-ram-v0觀測值的形式(這是一個長度爲128的數組)? 我的想法是在Breakout-ram-v0上訓練模型,並

    1熱度

    1回答

    更新1:修改了貪婪epsilon政策,因爲它在使epsilon數量非常少之前所花費的插曲次數非常少。我已經更新了代碼。 的新問題是在充分訓練它不應該偏離太大,但它拿起錯誤的價值觀瞬間發散是小量變小 我一直在努力openai gym平臺相當一段時間,現在我的目標瞭解更多關於強化學習的內容。在堆棧溢出用戶@sajad的幫助下,我成功實施了具有優先級體驗重放(PER)的雙重深度學習(DQN)。在推車問題

    2熱度

    1回答

    我正在閱讀Sutton的「鋼筋學習」& Barto,我試圖自己寫一些方法。 策略迭代是我目前正在使用的策略迭代。我正在嘗試使用OpenAI Gym來解決一個簡單的問題,例如CartPole或連續山地車。 但是,對於策略迭代,我需要狀態之間的轉換矩陣和獎勵矩陣。 這些都可以從您在OpenAI Gym中構建的'環境'中獲得。 我正在使用python。 如果不是,我該如何計算這些值,並使用環境?