2
的MCTS算法的步驟是:蒙特卡洛樹搜索:MCTS樹邊界前對手移動
- 選擇
- 擴展
- 模擬
- 反向傳播
我的問題是關於第三一步,模擬。我們用一個新節點擴展了我們的決策樹並模擬了其餘的移動,直到遊戲結束。這種模擬可以分爲兩個部分進行分割:
- 變成了我們利用我們的決策樹
- 變成了這爲雙方球員隨機移動策略(或使用專爲遊戲提供替代默認策略)
的MCTS樹行兩相分離的可視化是本公開的圖1:http://www.ru.is/faculty/yngvi/pdf/FinnssonB09a.pdf
我感到困惑的第一部分。爲了模擬遊戲,我們首先在第一個節點中採用我們的樹策略,然後對手移動,然後我們採取另一個樹策略移動,等等,直到我們到達在算法的第2步中創建的節點。在我們到達樹林線之前,我們讓對手在我們的樹策略之間做什麼動作?隨機移動的對手可能會採取行動阻止我們採取我們的下一步樹政策。或者我還有其他誤解嗎?