2012-09-13 56 views
4

我正在閱讀湯姆米切爾的機器學習書籍,第一章。權重更新和評估訓練示例值在玩支票

我想要做的是編寫程序與自己玩棋盤遊戲,並學會在最後獲勝。我的問題是關於它遇到的非終端董事會職位的信貸分配問題。也許我們可以使用其特徵和隨機權重的線性組合來設置值,如何使用LMS規則更新它?因爲我們除了結束狀態外沒有訓練樣本。

我不確定我是否清楚說明我的問題,儘管我嘗試過。

回答

1

我還沒有讀過那本書,但我的方法如下。假設懷特獲勝。那麼,白方經過的每一個位置都應得到正面信用,而黑方通過的每一個位置都應得到負信用。如果你重複這個推理,每當你有一組動作組成遊戲時,你應該向勝利者的所有位置添加一定數量的得分,並從失敗者的所有位置中刪除一定數量的得分。你爲一堆電腦和電腦遊戲做了這個。

您現在有一個數據集,由一組檢查器位置和各自的分數組成。您現在可以計算這些職位上的功能並訓練您最喜歡的迴歸器,例如LMS。

這種方法的改進將是訓練迴歸者,然後根據該移動的預測分數(即導致具有較高分數的位置的移動具有較高概率的移動)隨機繪製每個移動的更多遊戲。然後你更新這些分數並重新訓練迴歸者等。