我有一個人工神經網絡播放井字遊戲 - 但它還沒有完成。德爾福/帕斯卡(時間差分學習)TD(λ)
我有什麼尚未:
- 獎勵陣列 「R [T]」 具有每個時間步長或移動 「t」 的整數值(1 =玩家A贏了,0 =拉伸,-1 =玩家B獲勝)
- 輸入值通過網絡正確傳播。
- 公式調整權重:
缺少什麼:
- 的TD學習:我還需要一個過程,它 「backpropagates」 的網絡的誤差使用TD(λ)算法。
但我不太瞭解這個算法。
我的做法至今...
跟蹤衰減參數λ應爲「0.1」作爲遠端狀態不應該得到那麼多的獎勵。
兩層(輸入和隱藏)的學習率均爲「0.5」。
這是延遲獎勵的情況:獎勵在遊戲結束前保持「0」。然後,獎勵對於第一位玩家的勝利變爲「1」,對於第二位玩家的勝利則變爲「-1」或者在抽籤的情況下變爲「0」。
我的問題:
- 如何,什麼時候計算淨的錯誤(TD錯誤)?
- 如何實現錯誤的「反向傳播」?
- 如何使用TD(λ)調整權重?
非常感謝你提前:)
是的,當然,理解TD-lambda會很重要。我真的不明白這一點。當然,我讀過薩頓的那本書。這個算法對我來說大致是清楚的。我已經嘗試過這種表格映射,但現在我很想用TD-lambda工作來實現一個ANN。 – caw 2011-02-01 21:13:31