正如我在前面的問題中提到的,我正在編寫一個迷宮求解應用程序,以幫助我瞭解更多理論CS主題,可以演化一組規則(由布爾值處理),以便通過迷宮找到一個好的解決方案。即使我沒有真正的神經網絡工作知識(沒有正式的理論CS教育),但我想用神經網絡加強它。在對這個主題進行一些閱讀之後,我發現可以使用神經網絡來訓練基因組以改善結果。比方說,我有一個基因組(基因組),如用神經網絡和/或鋼筋學習提高我的GA
1 0 0 1 0 1 0 1 0 1 1 1 0 0...
我怎麼會用一個神經網絡(我假設MLP?),以培養和提高我的基因?
除了這一點,我對神經網絡一無所知我一直在尋找實施某種形式的鋼筋學習,使用我的迷宮矩陣(2維數組),雖然我有點卡在什麼下面的算法從我又想:
(從http://people.revoledu.com/kardi/tutorial/ReinforcementLearning/Q-Learning-Algorithm.htm)
1. Set parameter , and environment reward matrix R
2. Initialize matrix Q as zero matrix
3. For each episode:
* Select random initial state
* Do while not reach goal state
o Select one among all possible actions for the current state
o Using this possible action, consider to go to the next state
o Get maximum Q value of this next state based on all possible actions
o Compute
o Set the next state as the current state
End Do
End For
對我來說正好是實施獎勵矩陣R,什麼Q矩陣,並獲得Q值的大問題。我爲我的迷宮和枚舉狀態使用多維數組來處理每一個動作。這將如何用於Q-Learning算法?
如果有人能夠幫助解釋我需要做什麼來實現以下內容,最好在Java中,儘管C#也會很好,但可能有一些源代碼示例,這將是值得讚賞的。
這是一個非常複雜的課題。你在談論的事情通常在AI的大學課程的整個學期中討論。我不確定他們是否可以在Stackoverflow問題中得到很好的解答,但我肯定會對看到人們嘗試的感興趣。我從來沒有把我的頭圍繞在這些算法中。 – 2010-03-17 14:57:12
另一方面,如果你願意花費一些現金在關於這個主題的真正好的教科書上,那麼我可以建議:http://www.amazon.com/Artificial-Intelligence-Modern-Approach-3rd/dp/0136042597/ref = sr_1_1?ie = UTF8&s = books&qid = 1268837913&sr = 1-1 – 2010-03-17 15:12:38
我已經瞥了幾遍這本書,雖然它提供了一個體面的理論背景, 。如果有人能夠寫出一個基本的解決方案,根據我提供的信息來工作,即使它是僞代碼,我也會很高興嘗試並實施它並給出一個可接受的答案。 – AlexT 2010-03-17 15:41:51