3
A
回答
2
Q學習是一個Temporal difference learning算法。對於每個可能的狀態(棋盤),它都會學習可用動作(動作)的值。但是,它不適合與Minimax一起使用,因爲Minimax算法需要一個評估函數,它返回一個位置的值,而不是該位置的操作的值。
然而,時間差分方法可以用來學習這樣一個評估函數。最值得注意的是,Gerald Tesauro使用TD(λ)(「TD lambda」)算法創建了一個人類競爭性十五子游戲玩法TD-Gammon。他寫了一篇描述這種方法的文章,你可以找到here。 TD(λ)後來擴展到TDLeaf(λ),具體來說是爲了更好地處理Minimax搜索。 TDLeaf(λ)已用於例如國際象棋程序KnightCap中。您可以在this paper中閱讀TDLeaf。
0
Minimax可以讓你看到一些進入未來的動作,並以一種方式發揮作用,以最大限度地提高在該時間段內得分的機會。這對於Connect-4來說非常有用,在這種情況下,遊戲幾乎可以在任何時候結束,而且在每一回閤中可用的移動數量都不是很大。 Q-Learning將爲您提供一個價值函數來指導Minimax搜索。
相關問題
- 1. MinMax - 生成遊戲樹
- 2. QLearning中的負面回報
- 3. Haskell - 使用foldr的MinMax
- 4. 樹的實現在MINMAX與α-β剪枝
- 5. 如何阻止我的CSS網格列使用minmax()增長?
- 6. 用於跳棋的MinMax AI
- 7. 如何在Matlab中使用二叉樹?
- 8. 如何在樹中使用遞歸
- 9. Qlearning - 定義狀態和獎勵
- 10. 如何在樹枝和Symfony2中使用或使用條件
- 11. 如何使用分析樹?
- 12. auto-fit和minmax()在嵌套網格中不起作用
- 13. 如何使用liipimaginebundle filterset在樹枝
- 14. 如何在樹視圖使用VB.NET 2005
- 15. 如何在樹上使用遍歷
- 16. minmax算法的僞代碼
- 17. 四通ai Alpha beta minmax
- 18. 幫助我的MinMax實現
- 19. MinMax堆算法實現
- 20. Java連接4 MinMax算法
- 21. 瞭解minmax僞代碼
- 22. 如何在樹枝中渲染樹
- 23. Minmax算法和指針在C
- 24. 在Rx.NET中使用樹/ ReactiveUI
- 25. 如何在VisualVM中顯示調用樹?
- 26. 如何在Android源樹中啓用IPC
- 27. 如何在樹
- 28. 如何使用Gedmo嵌套樹在單個表中存儲多棵樹?
- 29. 如何使用XPATH在Python/Django中將子樹的數據添加到主樹
- 30. 使用'auto'和std :: minmax觀察奇怪的行爲