1熱度
1回答
具有函數逼近的Q學習,其中每個狀態都沒有相同的動作集合
0熱度
可以強化學習代理學習離散分佈
通過強化學習學習權重的神經網絡中的行動和獎勵是什麼
21熱度
2回答
價值迭代和策略迭代有什麼區別?
在深度Q /強化學習中預處理是否降低了準確度?
DeepMind-Atari-Deep-Q-Learner(DQN)無法運行遊戲ROM以外的其他遊戲
4熱度
觀察意義 - OpenAI Gym
TensorFlow:LSTM狀態保存/圖內更新
8熱度
TensorFlow:圖形優化(GPU vs CPU性能)
強化學習中的問題:錯誤,參數調整和培訓期間