2017-06-23 72 views
2

的MCTS算法的步驟是:蒙特卡洛樹搜索:MCTS樹邊界前對手移動

  1. 選擇
  2. 擴展
  3. 模擬
  4. 反向傳播

我的問題是關於第三一步,模擬。我們用一個新節點擴展了我們的決策樹並模擬了其餘的移動,直到遊戲結束。這種模擬可以分爲兩個部分進行分割:

  1. 變成了我們利用我們的決策樹
  2. 變成了這爲雙方球員隨機移動策略(或使用專爲遊戲提供替代默認策略)

的MCTS樹行兩相分離的可視化是本公開的圖1:http://www.ru.is/faculty/yngvi/pdf/FinnssonB09a.pdf

我感到困惑的第一部分。爲了模擬遊戲,我們首先在第一個節點中採用我們的樹策略,然後對手移動,然後我們採取另一個樹策略移動,等等,直到我們到達在算法的第2步中創建的節點。在我們到達樹林線之前,我們讓對手在我們的樹策略之間做什麼動作?隨機移動的對手可能會採取行動阻止我們採取我們的下一步樹政策。或者我還有其他誤解嗎?

回答

0

新節點位於決策樹的底部。這個決策樹代表這兩個球員的移動。當您在樹中的某個節點上時,樹會包含以該位置結束的確切移動序列。

其餘動作根據播放步驟進行模擬。

在實踐中,計算機通常不需要在第一階段繼續模擬移動。相反,它只會緩存節點的位置,然後可以從該點開始重複播放模擬。