2
我想從頭開始用Java學習橄欖球遊戲,我試圖用Google DeepMind的Deep Q-learning算法實現強化學習(儘管沒有卷積網絡) 。我已經建立了神經網絡和Q-learning,現在我正試圖將它們總結在一起,但有些東西在代碼中我不明白。深度Q學習算法中的phi是什麼
- 是不是通常用零而不是隨機值初始化Q值?或意思的神經網絡的權重(第2行)
- 什麼是
預處理意味着測序Φ1=Φ(S1)(第4行)
我只是無法弄清楚在這個算法中Φ代表什麼。
不錯,謝謝!我甚至沒有發現過2015年的這篇文章,我現在要讀這篇文章。 – Dope