OpenAI健身房：什麼時候需要重置？

儘管我可以設法讓示例和自己的代碼運行，但我對OpenAI gym API背後的真實語義/期望更加好奇，特別是Env.reset（）OpenAI健身房：什麼時候需要重置？

何時重置預期/必需？在每集結尾？或者僅在創建環境之後？

我寧願覺得它在每集之前都有意義，但我一直沒能明確地閱讀！

2017-05-08 purpletentacle

您通常在整個劇集之後使用重置。所以這可能是在你達到終端狀態後，或者你達到你最大的時間步長（由你設置）後。我通常也會在訓練開始時重置它。因此，如果您處於您的起始狀態'A'並且您想要達到'Z'狀態，那麼您將運行從'A' - >'B' - >'C'...的時間步驟，那麼當您到達終端狀態「Z」時，您將使用重置開始新的劇集，這會將您帶回「A」。

for episode in range(iterations): 
    state = env.reset() // first state 
    for time_step in range(1000): //max amount of iterations 
     action = take_action(state) 
     observation, reward, done, _ = env.step(action) 
     if done: 
      break // takes you to the next episode where the environment is reset

來源

2017-05-09 15:26:41

OpenAI健身房：什麼時候需要重置？

回答

相關問題