2017-04-07 45 views
3

對於單人遊戲,Q值更新非常直觀。當前狀態和未來狀態取決於單個玩家的策略,但對於兩個玩家來說情況並非如此。考慮對手獲勝並且遊戲結束的場景。 Q值如何更新?如何更新雙人遊戲的Q值

回答

1

一種常見的做法是將你的對手視爲環境的一部分,所以國家將被定義爲包括說話者,對手的位置。你選擇一個動作並執行它,修改狀態。對手然後採取行動,再次修改狀態。你的經紀人然後收到其先前行動和對手以前的行動的結果。

所以的情況下,在國家s你採取行動a,那麼對手的行爲,並終止遊戲中,你將通過a記錄從s到終端狀態的轉換。