reinforcement-learning

1熱度

1回答

我正在將Q-學習與函數逼近應用於每個狀態沒有相同動作集合的問題。還有，當我計算目標目標= R（S，A，S '）+（max_a' * Q（S'，A'））由於每個狀態不具有相同的一組動作，從而我是否應該在我的狀態定義中包含一系列操作？否則發生的事情是兩個狀態在所有其他特徵中可能彼此非常相似，除了它們具有非常不同的一組行爲之外。即使我包括一組動作，那麼問題就是矢量的長度，因爲每個狀態都有不同數量的動

0熱度

1回答

可以強化學習代理學習離散分佈

在網格世界中，如果我開始按照初始策略採取行動作爲可用操作之間的離散分佈。假設我在每個州有四個行動（北，南，東，西），現在我決定在每個州50％的時間我會選擇行動「北」。 30％的時間我會選擇行動「南」。 10％的時間行爲「東」，剩下10％的行動「西」。它對最佳政策會產生什麼影響？如果我在行動中選擇了統一的隨機分配。我想更頻繁地探索一個動作會讓q值對於那個狀態和動作對快速收斂，而且會更真實。但沒有辦法

0熱度

1回答

通過強化學習學習權重的神經網絡中的行動和獎勵是什麼

我的目標是預測客戶流失。我想使用強化學習來訓練一個預測目標響應輸入的循環神經網絡。我知道每次都是通過網絡輸入來表示狀態，但我不明白這個動作是如何表示的。神經網絡應該通過一些公式選擇權重值嗎？另外，我們應該如何創建獎勵或懲罰來教授神經網絡的權重，因爲我們不知道每個輸入神經元的目標響應？

21熱度

2回答

價值迭代和策略迭代有什麼區別？

在強化學習中，策略迭代和的值迭代有什麼區別？據我所知，在價值迭代中，您使用Bellman方程來求解最優策略，而在策略迭代中，您隨機選擇一個策略π並找到該策略的回報。我的疑問是，如果您在PI中選擇隨機策略π，它如何保證是最優策略。即使我們正在選擇幾項隨機政策。

0熱度

1回答

在深度Q /強化學習中預處理是否降低了準確度？

我一直在加強深讀了學習如這裏： https://www.nervanasys.com/demystifying-deep-reinforcement-learning/ 這將是一段時間之前，我明白所有的數學，但不使用的庫阻止我。無論如何，我知道在卷積ANN中，如果你想對圖像進行學習，你必須對圖像進行預處理，否則計算神經網絡所需的計算能力是天文數字。這是否會以任何方式降低網絡的質量？如果是這樣如何？

1熱度

1回答

DeepMind-Atari-Deep-Q-Learner（DQN）無法運行遊戲ROM以外的其他遊戲

我正在研究https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner這幾天。我成功地在我的機器上訓練了突破。但是，當我試圖運行從http://www.atariage.com/下載的遊戲時，run_cpu和run_gpu都失敗了。我已經替換了遊戲bin文件的大寫字母。這裏有一些遊戲ROM從http://www.atariage.com/system_

4熱度

2回答

觀察意義 - OpenAI Gym

我想知道在OpenAI Gym（https://gym.openai.com/）中觀察CartPole-v0的規範。例如，在下面的代碼輸出observation。一個觀察就像[-0.061586 -0.75893141 0.05793238 1.15547541]我想知道數字的意思。並且我想通過任何方式來了解其他Environments的規格，例如MountainCar-v0,MsPacman-

0熱度

1回答

TensorFlow：LSTM狀態保存/圖內更新

我正在使用鋼筋學習，並希望在訓練期間減少通過sess.run（）饋送的數據量，以加快學習速度。我一直在尋找進入LSTM並與需要向前看，重新找到正確的Q值，我精心設計了一個解決方案，如本與tf.case（）： CurrentStateOption = tf.Variable(0, trainable=False, name='SavedState') with tf.name_scope("L

8熱度

1回答

TensorFlow：圖形優化（GPU vs CPU性能）

此問題最初發佈於Github #3320。如果在那個線程中有更多關於原始問題的細節，並且體積龐大，我不希望在StackOverflow上重新發布，那麼從這裏開始會很好。這個問題的總結是當使用GPU比CPU處理TensorFlow圖時性能更慢。包含CPU/GPU時間軸（調試）用於評估。其中一條評論意見涉及到優化Graph以加快處理速度，並請求討論玩具示例。「原始解決方案」是我的強化學習代碼，顯示性

0熱度

1回答

強化學習中的問題：錯誤，參數調整和培訓期間

我目前正在使用具有100個隱藏元素的簡單神經網絡訓練強化學習代理來解決2048遊戲。我正在使用DQN的強化學習算法（即使用重播記憶進行Q學習），但使用2層神經網絡而不是深度神經網絡。然而，我把它在我的筆記本電腦上過夜訓練（~7小時，〜1000場比賽，> 100000步），並且得分似乎沒有增加。我懷疑我的代碼中可能有3個錯誤來源：錯誤，參數調整不好，或者我只是不能等待足夠長的時間。有什麼方法可以找