othello

    3熱度

    1回答

    我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行,但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習:導論」一書中,均方誤差值(MSVE)是標準損失函數,它基本上是一個均方誤差乘以策略分佈(所有狀態之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2)) 我現在的問題是:當我的策略是學習值函數的e-greedy函數時,如

    1熱度

    2回答

    對不起,圖片直接從我的筆記。 我一直在讀了極小的樹木和alpha數據修剪的最後一天,在我的項目準備了一下。這是c中的奧賽羅的實現。 我看過噸左右,它的資源,我知道它被問了很多。 在我開始評估功能之前,我想充分理解這一點。 在附圖中,我無法弄清楚功能Min_Node(pos)和Max_Node(pos)會做什麼,任何輸入將不勝感激。 如果任何人有我應該去尋找實現這個和奧賽羅對我的評價功能,當任何提示