回答

2

Q學習是一個Temporal difference learning算法。對於每個可能的狀態(棋盤),它都會學習可用動作(動作)的值。但是,它不適合與Minimax一起使用,因爲Minimax算法需要一個評估函數,它返回一個位置的值,而不是該位置的操作的值。

然而,時間差分方法可以用來學習這樣一個評估函數。最值得注意的是,Gerald Tesauro使用TD(λ)(「TD lambda」)算法創建了一個人類競爭性十五子游戲玩法TD-Gammon。他寫了一篇描述這種方法的文章,你可以找到here。 TD(λ)後來擴展到TDLeaf(λ),具體來說是爲了更好地處理Minimax搜索。 TDLeaf(λ)已用於例如國際象棋程序KnightCap中。您可以在this paper中閱讀TDLeaf。

0

Minimax可以讓你看到一些進入未來的動作,並以一種方式發揮作用,以最大限度地提高在該時間段內得分的機會。這對於Connect-4來說非常有用,在這種情況下,遊戲幾乎可以在任何時候結束,而且在每一回閤中可用的移動數量都不是很大。 Q-Learning將爲您提供一個價值函數來指導Minimax搜索。