othello - 優文庫

othello

3熱度

1回答

我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行，但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習：導論」一書中，均方誤差值（MSVE）是標準損失函數，它基本上是一個均方誤差乘以策略分佈（所有狀態之和（onPolicyDistribution（s ）* [V（s）-V'（s，w）] 2））我現在的問題是：當我的策略是學習值函數的e-greedy函數時，如

1熱度

2回答

通過alpha beta修剪瞭解minimax

對不起，圖片直接從我的筆記。我一直在讀了極小的樹木和alpha數據修剪的最後一天，在我的項目準備了一下。這是c中的奧賽羅的實現。我看過噸左右，它的資源，我知道它被問了很多。在我開始評估功能之前，我想充分理解這一點。在附圖中，我無法弄清楚功能Min_Node(pos)和Max_Node(pos)會做什麼，任何輸入將不勝感激。如果任何人有我應該去尋找實現這個和奧賽羅對我的評價功能，當任何提示