在增強學習中實現丟失函數（MSVE）

2017-10-11 97 views 3 likes

我正在嘗試爲奧賽羅構建一個時間差異學習代理。雖然我的其他實現似乎按預期運行，但我想知道用於訓練我的網絡的損失函數。在Sutton的「增強學習：導論」一書中，均方誤差值（MSVE）是標準損失函數，它基本上是一個均方誤差乘以策略分佈（所有狀態之和（onPolicyDistribution（s ）* [V（s）-V'（s，w）] 2））在增強學習中實現丟失函數（MSVE）

我現在的問題是：當我的策略是學習值函數的e-greedy函數時，如何獲得此策略分配？它甚至有必要的，有什麼問題，如果我只使用一個MSELoss呢？

我實現所有的這pytorch，這樣一個簡單的實施還有:)

來源

2017-10-11 masus04

回答

正如你提到的，在獎勵積分你的情況，聽起來就像你在做Q-learning一樣，所以你不需要按照Sutton的書中所描述的那樣進行策略漸變。這是當你學習一項政策時需要的。你沒有學習一項政策，你正在學習價值函數並用它來行動。

來源

2018-02-26 08:22:14

相關問題

11. 自定義丟失函數的實現
12. 構造函數實現丟失
13. PyBrain增強學習 - 迷宮和圖形
14. Pybrain增強學習動態輸出
15. 如何在增強現實中丟失目標時停止視頻？
16. 在NetLogo中實施強化學習（在多智能體模型中學習）
17. 強化學習
18. 在sk中實現KD Tree學習
19. 學習在MVC中實現DIC
20. 增強現實-PC
21. 增強現實iphone
22. 增強現實imageRecognition
23. Android增強現實
24. 增強現實 - Android
25. wp7中的增強現實
26. 稀疏實現/ scikit學習
27. 強化學習 - 從餘暉TD學習
28. 學習實現線程池 - 使用autoresetevent時發生信號丟失的事件丟失
29. Ajax函數學習
30. 標記增強現實與框架臨Android的增強現實