q-learning

0熱度

1回答

當我在強化學習中使用Q-Table保存狀態動作時，某些狀態從不（或很少）發生，並且狀態動作值保持爲零直到最大迭代，所以我決定用神經網絡在線估計Q-Table而不是使用Q-Table。哪種類型的神經網絡可以更準確地估計這類問題，這個解決方案對我有幫助嗎？

2熱度

1回答

Q學習：什麼是獎勵計算正確的狀態

Q學習 - 獎勵我掙扎解釋了Q學習算法的僞代碼： 1 For each s, a initialize table entry Q(a, s) = 0 2 Observe current state s 3 Do forever: 4 Select an action a and execute it 5 Receive immediate reward r 6 Observe

13熱度

2回答

最佳小量（ε貪婪）值

ε貪婪政策我知道Q學習算法應儘量探索和開發之間進行平衡。因爲我是這個領域的初學者，所以我想實現一個簡單版本的勘探/開發行爲。最優小量值我實現使用ε貪婪的政策，但我不知所措我當談到決定小量值。 ε應該以算法訪問給定（狀態，動作）對的次數爲界，還是應該以所執行的迭代次數爲界限？我的建議：下一個給定的（狀態，動作）對已經遇到的每個時間用於ε-值。執行完整迭代後，降低epsilon值。降低每

2熱度

2回答

Qlearning - 定義狀態和獎勵

我需要一些幫助來解決使用Q學習算法的問題。問題描述：我有一個火箭模擬器，其中，所述火箭採取隨機路徑和也崩潰有時。火箭有3種不同的發動機可以打開或關閉。取決於哪個（些）發動機被激活，火箭飛向不同的方向。用於開啓引擎關閉/開啓功能可任務：構建Q學習控制器，它會變成火箭面對所有的時間。讀取火箭角度的傳感器可用作輸入。我的解決辦法：我有以下狀態：我也有下列行爲：所有發動機關閉左發動機

1熱度

2回答

Q-learning（多個目標）

我剛開始學習Q-learning，看看使用Q-learning解決我的問題的可能性。問題：我應該檢測數據的某個組合，我有四個矩陣作爲系統的輸入，我已經對輸入進行了分類（每個輸入可以是低（L）或高（ H））。我需要檢測某些類型的輸入，例如LLLH，LLHH，HHHH等。注意： 1）LLLH表示L中的第一個輸入，第二個輸入爲L，第三個輸入爲L，第四個輸入爲H！ 2）我已經將每種輸入類型標記爲狀態

2熱度

4回答

甚至可能沒有最終狀態的Q學習？

我必須用Q-learning解決這個問題。呃，實際上我必須評估一個基於Q學習的策略。我是一名旅遊經理。我有n酒店，每個酒店可以包含不同數量的人。對於我放入酒店的每個人，根據我選擇的房間獲得獎勵。如果我想我也可以謀殺這個人，所以它沒有旅館，但它給了我不同的獎勵。（好吧，這是一個笑話...但是這就是說我可以自我轉換，所以我的房間裏的人數在這個動作之後不會改變）。我的狀態是一個載體，包含每

4熱度

1回答

在NetLogo中實施強化學習（在多智能體模型中學習）

我在爲我的模型中的不同類型的智能體實施學習策略。說實話，我仍然不知道我應該問什麼樣的問題或從哪裏開始。我有兩種類型的，我希望他們的經驗中學習代理人，他們的每個具有基於可能發生的具體情況不同的獎勵措施池。我是新來的強化學習方法，因此我應該問什麼樣的問題是我自己:)歡迎這裏是如何我前進制訂我的問題有什麼建議：代理有壽命和他們跟蹤這事對他們來說這些指標是不同的代理商不同，例如，一個代理需要增加一

6熱度

3回答

無限增加的Q值，在Q-Learning中重複同樣的操作後得到的經常獎勵的結果

我正在通過一個簡單的應用程序開發一個簡單的Q-Learning實現過程，但有一件事讓我困惑不已。讓我們考慮的標準制定的Q學習 Q(S, A) = Q(S, A) + alpha * [R + MaxQ(S', A') - Q(S, A)] 讓我們假設有一個有兩個可能的操作這種狀態K，既授予我們代理通過A和A'獎勵R和R'。如果我們遵循一個幾乎完全貪婪的方法（假設我們假設一個0.1ε），我會

-1熱度

1回答

線下面的機器人使用JavaScript，Arduino和Q-Learning

我希望創建一個使用Q-Learning的機器人線。我的意圖是使用/構建一個基於Arduino部件的機器人，同時在編程方面使用JavaScript。在寫這篇文章的時候，我一直在搜索一下，並認爲這是一個可行的項目。不過，這將是我第一次嘗試編寫JavaScript和構建Arduino機器人，所以我會很感激你們可能擁有的任何指針。我不是要求你解決這個問題，而是要強調我可能遇到的任何showstoppe

0熱度

2回答

Q學習轉換矩陣

我想弄清楚如何在gridworld示例中實現Q學習。我相信我理解Q學習如何工作的基礎知識，但它似乎並沒有給我正確的價值觀。這個例子來自Sutton和Barton關於強化學習的書。指定gridworld以便代理可以在任何給定狀態下以相同的概率採取行動{N，E，W，S}，並且除非代理試圖從哪種情況下它是-1。有兩種特殊狀態A和B，其中代理確定性地分別移動到A'和B'，分別具有獎勵+10和+5。我