q-learning

3熱度

1回答

如何更新雙人遊戲的Q值

對於單人遊戲，Q值更新非常直觀。當前狀態和未來狀態取決於單個玩家的策略，但對於兩個玩家來說情況並非如此。考慮對手獲勝並且遊戲結束的場景。 Q值如何更新？

1熱度

1回答

ε-貪婪策略隨着探索速度的降低

我想在Q學習中實施ε-貪婪策略動作選擇策略。這裏很多人都用過，下面的公式進行勘探的下降速度， ɛ= E ^（ - 恩） N =代理人的年齡 E =開採參數但我不清楚這個「n」是什麼意思？對特定狀態動作對的訪問次數或者是迭代次數？非常感謝

0熱度

1回答

在Q學習中的探索和利用

在Q學習算法中，動作的選擇取決於當前狀態和Q矩陣的值。我想知道這些Q值是僅在勘探步驟中更新還是在開採步驟中也會更改。

0熱度

1回答

同一國家在強化學習中獲得的不同獎勵

我想爲Chrome恐龍遊戲（可以在離線時玩的人）實施Q-Learning。我將自己的狀態定義爲：到下一個障礙物的距離，速度和下一個障礙物的大小。對於獎勵，我想使用成功通過障礙的數量，但可能發生的情況是，同一個州有不同的立即獎勵。相同類型的障礙物可能會在遊戲後期重新出現，但通過它的回報會更高，因爲已經通過了更多障礙。我現在的問題是：這是一個問題還是Q-Learning仍然有效？如果沒有更好的方

0熱度

1回答

Q表表示

就我所瞭解的Q學習而言，Q值是特定狀態動作對的「有多好」的量度。這通常是在下列方式之一表來表示（見圖）：都表示是否有效？如果將Q表作爲狀態轉換表（如圖中頂部q表所示）給出，那麼如何確定最佳操作，特別是如果狀態轉換不是確定性的（即採取從政府行爲可以在不同的時間降落在你不同的狀態？）

1熱度

2回答

Q中的ε衰變學習

任何強化學習算法中最重要的挑戰是在勘探和開發之間進行平衡。我想在玩具問題上運行Q學習，並且我意識到存在快速的epsilon衰變發生。我選擇了epsilon爲高（0.9或1），以便代理人可以做更多的探索，我的epsilon衰減大約爲0.999。我如何減慢ε衰減，換句話說，我不希望代理商變得太快貪婪？我的衰變參數應該是什麼？謝謝！

1熱度

2回答

爲什麼我的神經網絡Q-learning不學習井字遊戲

好吧，所以我創建了一個神經網絡Q-learner，使用與DeepMind的Atari算法相同的想法（除了我給出的原始數據不是圖片（然而））。神經網絡的構建： 9個輸入（0代表空白點，1表示「X」，-1 「O」） 1隱藏層與9-50神經元（試圖用不同的尺寸，激活函數乙狀結腸） 9輸出（1每一個動作，輸出Q值，激活函數乙狀結腸） MSE損失函數亞當backprop 我100％相信網絡是正確建立，

0熱度

1回答

在Q學習中，你怎麼才能真正獲得Q值？ Q（s，a）不會永遠持續下去嗎？

我一直在研究強化學習，但我不明白的是如何計算Q值。如果你使用Bellman方程Q(s,a) = r + γ*max(Q(s',a'))，它會不會永遠持續下去？因爲Q(s',a')會進一步需要一個時間步長的Q值，而這隻會繼續下去。它如何結束？

1熱度

1回答

Deep Q Learning是否適合解決Cartpole任務？

我是新增強化學習。最近，我一直在嘗試培訓一個Deep Q網絡來解決OpenAI體育館的CartPole-v0問題，其中解決意味着在超過100個連續劇集中獲得至少195.0的平均分數。我使用的是2層的神經網絡，經驗重播含百萬經驗，ε貪婪政策，RMSProp優化和胡貝爾損失函數的內存。使用此設置，解決任務需要幾千集（> 30k）。有時學習也很不穩定。那麼，Deep Q Networks如何擺動並花

0熱度

1回答

深Q_learning - Tensorflow - 權重將不會改變

我想寫一個DQL算法和我試圖運行tensorflow class DQN: def __init__(self, env, n_hidden, learning_rate): self.image_input = tf.placeholder(shape=[None, 128,128,3], dtype=tf.float32) self.conv1 = tf.contri