權重更新和評估訓練示例值在玩支票

我想要做的是編寫程序與自己玩棋盤遊戲，並學會在最後獲勝。我的問題是關於它遇到的非終端董事會職位的信貸分配問題。也許我們可以使用其特徵和隨機權重的線性組合來設置值，如何使用LMS規則更新它？因爲我們除了結束狀態外沒有訓練樣本。

我不確定我是否清楚說明我的問題，儘管我嘗試過。

我還沒有讀過那本書，但我的方法如下。假設懷特獲勝。那麼，白方經過的每一個位置都應得到正面信用，而黑方通過的每一個位置都應得到負信用。如果你重複這個推理，每當你有一組動作組成遊戲時，你應該向勝利者的所有位置添加一定數量的得分，並從失敗者的所有位置中刪除一定數量的得分。你爲一堆電腦和電腦遊戲做了這個。

您現在有一個數據集，由一組檢查器位置和各自的分數組成。您現在可以計算這些職位上的功能並訓練您最喜歡的迴歸器，例如LMS。

這種方法的改進將是訓練迴歸者，然後根據該移動的預測分數（即導致具有較高分數的位置的移動具有較高概率的移動）隨機繪製每個移動的更多遊戲。然後你更新這些分數並重新訓練迴歸者等。

2012-09-14 09:26:57 HerrKaputt

回答