q-learning

    3熱度

    1回答

    對於單人遊戲,Q值更新非常直觀。當前狀態和未來狀態取決於單個玩家的策略,但對於兩個玩家來說情況並非如此。考慮對手獲勝並且遊戲結束的場景。 Q值如何更新?

    1熱度

    1回答

    我想在Q學習中實施ε-貪婪策略動作選擇策略。這裏很多人都用過,下面的公式進行勘探的下降速度, ɛ= E ^( - 恩) N =代理人的年齡 E =開採參數 但我不清楚這個「n」是什麼意思?對特定狀態動作對的訪問次數或者是迭代次數? 非常感謝

    0熱度

    1回答

    在Q學習算法中,動作的選擇取決於當前狀態和Q矩陣的值。我想知道這些Q值是僅在勘探步驟中更新還是在開採步驟中也會更改。

    0熱度

    1回答

    我想爲Chrome恐龍遊戲(可以在離線時玩的人)實施Q-Learning。 我將自己的狀態定義爲:到下一個障礙物的距離,速度和下一個障礙物的大小。 對於獎勵,我想使用成功通過障礙的數量,但可能發生的情況是,同一個州有不同的立即獎勵。相同類型的障礙物可能會在遊戲後期重新出現,但通過它的回報會更高,因爲已經通過了更多障礙。 我現在的問題是:這是一個問題還是Q-Learning仍然有效?如果沒有更好的方

    0熱度

    1回答

    就我所瞭解的Q學習而言,Q值是特定狀態動作對的「有多好」的量度。這通常是在下列方式之一表來表示(見圖): 都表示是否有效? 如果將Q表作爲狀態轉換表(如圖中頂部q表所示)給出,那麼如何確定最佳操作,特別是如果狀態轉換不是確定性的(即採取從政府行爲可以在不同的時間降落在你不同的狀態?)

    1熱度

    2回答

    任何強化學習算法中最重要的挑戰是在勘探和開發之間進行平衡。 我想在玩具問題上運行Q學習,並且我意識到存在快速的epsilon衰變發生。 我選擇了epsilon爲高(0.9或1),以便代理人可以做更多的探索,我的epsilon衰減大約爲0.999。 我如何減慢ε衰減,換句話說,我不希望代理商變得太快貪婪?我的衰變參數應該是什麼? 謝謝!

    1熱度

    2回答

    好吧,所以我創建了一個神經網絡Q-learner,使用與DeepMind的Atari算法相同的想法(除了我給出的原始數據不是圖片(然而))。 神經網絡的構建: 9個輸入(0代表空白點,1表示 「X」,-1 「O」) 1隱藏層與9-50神經元(試圖用不同的尺寸,激活函數乙狀結腸) 9輸出(1每一個動作,輸出Q值,激活函數乙狀結腸) MSE損失函數 亞當backprop 我100%相信網絡是正確建立,

    0熱度

    1回答

    我一直在研究強化學習,但我不明白的是如何計算Q值。如果你使用Bellman方程Q(s,a) = r + γ*max(Q(s',a')),它會不會永遠持續下去?因爲Q(s',a')會進一步需要一個時間步長的Q值,而這隻會繼續下去。它如何結束?

    1熱度

    1回答

    我是新增強化學習。最近,我一直在嘗試培訓一個Deep Q網絡來解決OpenAI體育館的CartPole-v0問題,其中解決意味着在超過100個連續劇集中獲得至少195.0的平均分數。 我使用的是2層的神經網絡,經驗重播含百萬經驗,ε貪婪政策,RMSProp優化和胡貝爾損失函數的內存。 使用此設置,解決任務需要幾千集(> 30k)。有時學習也很不穩定。那麼,Deep Q Networks如何擺動並花

    0熱度

    1回答

    我想寫一個DQL算法和我試圖運行tensorflow class DQN: def __init__(self, env, n_hidden, learning_rate): self.image_input = tf.placeholder(shape=[None, 128,128,3], dtype=tf.float32) self.conv1 = tf.contri