我一直在閱讀Browne等人的Monte Carlo Tree Search調查報告。人:蒙特卡羅樹搜索,反向傳播(備份)步驟:爲什麼要改變獎勵值的角度?
http://ccg.doc.gold.ac.uk/papers/browne_tciaig12_1.pdf
「蒙特卡洛樹搜索方法綜述」
我與頁上的只是一片僞代碼的摔跤。 9.我的問題在Backup和BackupNegamax函數中都以類似的形式出現。
假設我是2人零和遊戲中的玩家1。 (所以,使用BackupNegamax函數。)輪到我了,我正在使用MCTS來選擇我的移動。在BackupNegamax中,爲什麼在備份樹時,delta值被否定了?我明白,在雙人零和遊戲中,如果獎勵是玩家1(我)的三角洲,那麼它是 - 玩家2的三角。但是不應該從玩家1的角度來看整個樹? (如果我沒有弄錯的話,這將類似於節點在極大極樹中的評分。)
如果Q值的角度來回切換,取決於您所在的樹的級別,這不會搞亂BestChild函數中顯示的計算嗎?具體來說,假設某個節點v具有非常高的Q值,因爲它經常導致玩家1的高回報。給定的僞代碼似乎表明v的父母,我將稱之爲u,可能會有非常低的負數)Q值(當然你的Q值也會考慮到其他孩子的Q值)
所以對我來說,u(父母)的Q值非常低,v孩子)有一個非常高的。我知道v是來自玩家1在僞代碼中的角度,而u是來自玩家2的角度,但我的問題是爲什麼。爲什麼不是從播放器1的角度存儲節點的Q值?這樣,u和v都將具有高Q值,因此具有很高的開採評級,並且根據BestChild函數,它們都被認爲對進一步開發具有價值。
(我在MCTS來從極小的經驗,並在極小整個樹是從最大的角度來看,這就是爲什麼我用不同的想法在這裏掙扎。)
我的問題也適用於備份 - 爲什麼每個Q值都根據樹中該層的玩家角度更新,而不是從「我的」角度更新一切?
我希望我的問題已經很清楚了。非常感謝您的幫助!
我也很困惑這個想法。 – alexzzp