我正在使用Keras
進行深q學習的實驗,並且我想要教授代理來執行任務。深q學習不收斂
我wan't教的試劑,以避免撞擊物體在它的路徑,通過改變它的速度(加速或減速)
所述試劑水平移動和對象以避免在垂直方向移動的,我不要他學會改變速度以避免擊中它們。 我基於我對這個代碼:Keras-FlappyBird
我試圖3個不同模型(我不使用卷積網絡)
模型與S形的激活函數10密隱藏層,用400輸出節點
模型與
Leaky ReLU
激活功能- 與
ReLu
活化函數10密隱藏層模型10密隱藏層,具有400個輸出節點
我向網絡提供我網絡中所有對象的座標和速度。
並訓練它100萬幀,但依然看不到任何結果 這裏是我的Q值積爲3種型號,
,你可以看到的Q值都相同並沒有改善作爲來回獎勵......請幫助我什麼,我我做錯了..
非常感謝您的回答,1:400節點我的意思是在隱藏節點中,在輸出節點中我只有3個。 2:是的,你是對的,我正在爲自己的環境移植代碼。 3:解釋我的環境;我基本上試圖訓練一個網絡,以避免與移動目標相撞,我將目標的位置作爲輸入,輸出是3個可能的動作 –
,我認爲你是正確的,我試圖改變epsilon的參數和伽瑪,我看到一些改善,但仍然不是我所希望的結果 –
我也會看看其他參數,包括學習率。如果您的環境沒有終端狀態,那麼您可能需要考慮最低探索速率爲.1或類似的東西,以便它不斷探索新的狀態,找到一個最佳的解決方案。 –