0
儘管我可以設法讓示例和自己的代碼運行,但我對OpenAI gym API背後的真實語義/期望更加好奇,特別是Env.reset()OpenAI健身房:什麼時候需要重置?
何時重置預期/必需?在每集結尾?或者僅在創建環境之後?
我寧願覺得它在每集之前都有意義,但我一直沒能明確地閱讀!
儘管我可以設法讓示例和自己的代碼運行,但我對OpenAI gym API背後的真實語義/期望更加好奇,特別是Env.reset()OpenAI健身房:什麼時候需要重置?
何時重置預期/必需?在每集結尾?或者僅在創建環境之後?
我寧願覺得它在每集之前都有意義,但我一直沒能明確地閱讀!
您通常在整個劇集之後使用重置。所以這可能是在你達到終端狀態後,或者你達到你最大的時間步長(由你設置)後。我通常也會在訓練開始時重置它。因此,如果您處於您的起始狀態'A'並且您想要達到'Z'狀態,那麼您將運行從'A' - >'B' - >'C'...的時間步驟,那麼當您到達終端狀態「Z」時,您將使用重置開始新的劇集,這會將您帶回「A」。
for episode in range(iterations):
state = env.reset() // first state
for time_step in range(1000): //max amount of iterations
action = take_action(state)
observation, reward, done, _ = env.step(action)
if done:
break // takes you to the next episode where the environment is reset