我想用Q學習訓練CatPole-V0餵養tensorflow佔位符。當試圖更新用豐富的經驗,我收到以下錯誤重傳緩衝器: ValueError: Cannot feed value of shape (128,) for Tensor 'Placeholder_1:0', which has shape '(?, 2)'
相關的代碼片段是: def update_replay_buffer(re
我正在開發自駕車計劃的代碼。我在我的choose_action函數中遇到問題。代理應該從選擇的有以下步驟最高Q值的動作選擇隨機行動: 「其他: 行動= maxQaction」 但我現在寫的方式,每次只會選擇相同的動作。任何人都可以建議如何隨機選擇最高的Q值,也許我可以使用列表。 Code:
import random
import math
from environment import A
我在開放式健身房的mountain car problem中實施DQN。這個問題很特殊,因爲積極的回報非常稀少。所以我想到了這個paper by google deep mind中提出的優先體驗重播。 但是也有一些困惑我某些事: 我們如何存儲回放存儲器。我得到那我是過渡的優先事項,有兩種方式,但這是什麼P(我)? 如果我們按照給定的規則不會P(i)每次添加樣本都會改變。 當它說「我們根據此概率分佈