3

我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行,但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習:導論」一書中,均方誤差值(MSVE)是標準損失函數,它基本上是一個均方誤差乘以策略分佈(所有狀態之和(onPolicyDistribution(s )* [V(s)-V'(s,w)] 2))在增強學習中實現丟失函數(MSVE)

我現在的問題是:當我的策略是學習值函數的e-greedy函數時,如何獲得此策略分配?它甚至有必要的,有什麼問題,如果我只使用一個MSELoss呢?

我實現所有的這pytorch,這樣一個簡單的實施還有:)

回答

0

正如你提到的,在獎勵積分你的情況,聽起來就像你在做Q-learning一樣,所以你不需要按照Sutton的書中所描述的那樣進行策略漸變。這是當你學習一項政策時需要的。你沒有學習一項政策,你正在學習價值函數並用它來行動。