3
我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行,但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習:導論」一書中,均方誤差值(MSVE)是標準損失函數,它基本上是一個均方誤差乘以策略分佈(所有狀態之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2))在增強學習中實現丟失函數(MSVE)
我現在的問題是:當我的策略是學習值函數的e-greedy函數時,如何獲得此策略分配?它甚至有必要的,有什麼問題,如果我只使用一個MSELoss呢?
我實現所有的這pytorch,這樣一個簡單的實施還有:)