uwenku
標簽列表
othello
3
熱度
1
回答
在增強學習中實現丟失函數(MSVE)
我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行,但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習:導論」一書中,均方誤差值(MSVE)是標準損失函數,它基本上是一個均方誤差乘以策略分佈(所有狀態之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2)) 我現在的問題是:當我的策略是學習值函數的e-greedy函數時,如
reinforcement-learning
pytorch
loss-function
temporal-difference
othello
2017-10-11
1
熱度
2
回答
通過alpha beta修剪瞭解minimax
對不起,圖片直接從我的筆記。 我一直在讀了極小的樹木和alpha數據修剪的最後一天,在我的項目準備了一下。這是c中的奧賽羅的實現。 我看過噸左右,它的資源,我知道它被問了很多。 在我開始評估功能之前,我想充分理解這一點。 在附圖中,我無法弄清楚功能Min_Node(pos)和Max_Node(pos)會做什麼,任何輸入將不勝感激。 如果任何人有我應該去尋找實現這個和奧賽羅對我的評價功能,當任何提示
optimization
minimax
alpha-beta-pruning
othello
2017-04-11
最新問題
1.
在角度工人中導入模塊?
2.
Python布爾方法命名約定
3.
jquery background-image
4.
從s3檢索音頻時出錯
5.
如何將QR碼自動添加到圖像
6.
16個任務(1048.5 MB)的序列化結果的總大小大於spark.driver.maxResultSize(1024.0 MB)
7.
打字稿,使用類沒有構造
8.
PHP通過除去空鍵
9.
Jest TypeError:無法讀取未定義的'商店'
10.
在C++中有沒有一種慣用的方法來防止運行一組操作導致集合發生變化的情況?