reinforcement-learning

    1熱度

    1回答

    我正在將Q-學習與函數逼近應用於每個狀態沒有相同動作集合的問題。還有,當我計算目標 目標= R(S,A,S ')+(max_a' * Q(S',A')) 由於每個狀態不具有相同的一組動作,從而我是否應該在我的狀態定義中包含一系列操作?否則發生的事情是兩個狀態在所有其他特徵中可能彼此非常相似,除了它們具有非常不同的一組行爲之外。即使我包括一組動作,那麼問題就是矢量的長度,因爲每個狀態都有不同數量的動

    0熱度

    1回答

    在網格世界中,如果我開始按照初始策略採取行動作爲可用操作之間的離散分佈。假設我在每個州有四個行動(北,南,東,西),現在我決定在每個州50%的時間我會選擇行動「北」。 30%的時間我會選擇行動「南」。 10%的時間行爲「東」,剩下10%的行動「西」。它對最佳政策會產生什麼影響?如果我在行動中選擇了統一的隨機分配。我想更頻繁地探索一個動作會讓q值對於那個狀態和動作對快速收斂,而且會更真實。但沒有辦法

    0熱度

    1回答

    我的目標是預測客戶流失。我想使用強化學習來訓練一個預測目標響應輸入的循環神經網絡。 我知道每次都是通過網絡輸入來表示狀態,但我不明白這個動作是如何表示的。神經網絡應該通過一些公式選擇權重值嗎? 另外,我們應該如何創建獎勵或懲罰來教授神經網絡的權重,因爲我們不知道每個輸入神經元的目標響應?

    21熱度

    2回答

    在強化學習中,策略迭代和的值迭代有什麼區別? 據我所知,在價值迭代中,您使用Bellman方程來求解最優策略,而在策略迭代中,您隨機選擇一個策略π並找到該策略的回報。 我的疑問是,如果您在PI中選擇隨機策略π,它如何保證是最優策略。即使我們正在選擇幾項隨機政策。

    0熱度

    1回答

    我一直在加強深讀了學習如這裏: https://www.nervanasys.com/demystifying-deep-reinforcement-learning/ 這將是一段時間之前,我明白所有的數學,但不使用的庫阻止我。無論如何,我知道在卷積ANN中,如果你想對圖像進行學習,你必須對圖像進行預處理,否則計算神經網絡所需的計算能力是天文數字。這是否會以任何方式降低網絡的質量?如果是這樣如何?

    1熱度

    1回答

    我正在研究https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner這幾天。我成功地在我的機器上訓練了突破。但是,當我試圖運行從http://www.atariage.com/下載的遊戲時,run_cpu和run_gpu都失敗了。我已經替換了遊戲bin文件的大寫字母。 這裏有一些遊戲ROM從http://www.atariage.com/system_

    4熱度

    2回答

    我想知道在OpenAI Gym(https://gym.openai.com/)中觀察CartPole-v0的規範。 例如,在下面的代碼輸出observation。一個觀察就像[-0.061586 -0.75893141 0.05793238 1.15547541]我想知道數字的意思。並且我想通過任何方式來了解其他Environments的規格,例如MountainCar-v0,MsPacman-

    0熱度

    1回答

    我正在使用鋼筋學習,並希望在訓練期間減少通過sess.run()饋送的數據量,以加快學習速度。 我一直在尋找進入LSTM並與需要向前看,重新找到正確的Q值,我精心設計了一個解決方案,如本與tf.case(): CurrentStateOption = tf.Variable(0, trainable=False, name='SavedState') with tf.name_scope("L

    8熱度

    1回答

    此問題最初發佈於Github #3320。如果在那個線程中有更多關於原始問題的細節,並且體積龐大,我不希望在StackOverflow上重新發布,那麼從這裏開始會很好。這個問題的總結是當使用GPU比CPU處理TensorFlow圖時性能更慢。包含CPU/GPU時間軸(調試)用於評估。其中一條評論意見涉及到優化Graph以加快處理速度,並請求討論玩具示例。 「原始解決方案」是我的強化學習代碼,顯示性

    0熱度

    1回答

    我目前正在使用具有100個隱藏元素的簡單神經網絡訓練強化學習代理來解決2048遊戲。我正在使用DQN的強化學習算法(即使用重播記憶進行Q學習),但使用2層神經網絡而不是深度神經網絡。然而,我把它在我的筆記本電腦上過夜訓練(~7小時,〜1000場比賽,> 100000步),並且得分似乎沒有增加。我懷疑我的代碼中可能有3個錯誤來源:錯誤,參數調整不好,或者我只是不能等待足夠長的時間。 有什麼方法可以找