蒙特卡洛樹搜索：MCTS樹邊界前對手移動

選擇
擴展
模擬
反向傳播

我的問題是關於第三一步，模擬。我們用一個新節點擴展了我們的決策樹並模擬了其餘的移動，直到遊戲結束。這種模擬可以分爲兩個部分進行分割：

變成了我們利用我們的決策樹
變成了這爲雙方球員隨機移動策略（或使用專爲遊戲提供替代默認策略）

的MCTS樹行兩相分離的可視化是本公開的圖1：http://www.ru.is/faculty/yngvi/pdf/FinnssonB09a.pdf

我感到困惑的第一部分。爲了模擬遊戲，我們首先在第一個節點中採用我們的樹策略，然後對手移動，然後我們採取另一個樹策略移動，等等，直到我們到達在算法的第2步中創建的節點。在我們到達樹林線之前，我們讓對手在我們的樹策略之間做什麼動作？隨機移動的對手可能會採取行動阻止我們採取我們的下一步樹政策。或者我還有其他誤解嗎？

來源

2017-06-23 hyozanx

新節點位於決策樹的底部。這個決策樹代表這兩個球員的移動。當您在樹中的某個節點上時，樹會包含以該位置結束的確切移動序列。

其餘動作根據播放步驟進行模擬。

在實踐中，計算機通常不需要在第一階段繼續模擬移動。相反，它只會緩存節點的位置，然後可以從該點開始重複播放模擬。

來源

2017-06-23 19:52:51

蒙特卡洛樹搜索：MCTS樹邊界前對手移動

回答

相關問題