uwenku
標簽列表
othello
3
熱度
1
回答
在增強學習中實現丟失函數(MSVE)
我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行,但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習:導論」一書中,均方誤差值(MSVE)是標準損失函數,它基本上是一個均方誤差乘以策略分佈(所有狀態之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2)) 我現在的問題是:當我的策略是學習值函數的e-greedy函數時,如
reinforcement-learning
pytorch
loss-function
temporal-difference
othello
2017-10-11
1
熱度
2
回答
通過alpha beta修剪瞭解minimax
對不起,圖片直接從我的筆記。 我一直在讀了極小的樹木和alpha數據修剪的最後一天,在我的項目準備了一下。這是c中的奧賽羅的實現。 我看過噸左右,它的資源,我知道它被問了很多。 在我開始評估功能之前,我想充分理解這一點。 在附圖中,我無法弄清楚功能Min_Node(pos)和Max_Node(pos)會做什麼,任何輸入將不勝感激。 如果任何人有我應該去尋找實現這個和奧賽羅對我的評價功能,當任何提示
optimization
minimax
alpha-beta-pruning
othello
2017-04-11
最新問題
1.
ReactJS:如何按順序映射JSON元素並在點擊時顯示隱藏的div
2.
從PHP腳本登錄到Docker Hub
3.
Git失敗,出現致命錯誤。無法讀取用戶名
4.
將BLE設備名稱與字符串進行比較
5.
VB.NET在更多的項目中使用相同的子類
6.
使用CABasicAnimation後,防止CAGradientLayer位置返回原始值
7.
使用分割獲取圖像的名稱
8.
如何獲得MS SQL Strored Procedure返回值在PHP中使用PDO?
9.
獲得Oracle存儲過程的參數
10.
獲取網頁