如何在Q-Learning中使用MinMax樹？

如何在Q-Learning中使用MinMax樹？如何在Q-Learning中使用MinMax樹？

我想實現一個Q-Learning連接四個代理，並聽說向它添加MinMax樹有幫助。

2012-01-10 Vadiklk

Q學習是一個Temporal difference learning算法。對於每個可能的狀態（棋盤），它都會學習可用動作（動作）的值。但是，它不適合與Minimax一起使用，因爲Minimax算法需要一個評估函數，它返回一個位置的值，而不是該位置的操作的值。

然而，時間差分方法可以用來學習這樣一個評估函數。最值得注意的是，Gerald Tesauro使用TD（λ）（「TD lambda」）算法創建了一個人類競爭性十五子游戲玩法TD-Gammon。他寫了一篇描述這種方法的文章，你可以找到here。 TD（λ）後來擴展到TDLeaf（λ），具體來說是爲了更好地處理Minimax搜索。 TDLeaf（λ）已用於例如國際象棋程序KnightCap中。您可以在this paper中閱讀TDLeaf。

來源

2012-01-20 20:30:46 DataWraith

Minimax可以讓你看到一些進入未來的動作，並以一種方式發揮作用，以最大限度地提高在該時間段內得分的機會。這對於Connect-4來說非常有用，在這種情況下，遊戲幾乎可以在任何時候結束，而且在每一回閤中可用的移動數量都不是很大。 Q-Learning將爲您提供一個價值函數來指導Minimax搜索。

來源

2012-01-20 08:47:54

如何在Q-Learning中使用MinMax樹？

回答

相關問題