帶有共享統計優化器的Tensorflow A3C實現

是否有開源的基於Tensorflow的A3C強化學習算法的實現？帶有共享統計優化器的Tensorflow A3C實現

*我知道PyTorch和Chainer版本的A3C共享RMSProp統計信息。但沒有找到TF一個。

的Shared RMSProp設置。我想詢問在Supp.7描述的原paper：

」 ......爲了在異步優化申請RMSProp設定一個必須決定是否按元素的移動平均線我們用兩個版本的算法進行了實驗，在一個版本中，我們稱之爲RMSProp，每個線程都維護自己的g ...

...在其他版本，我們稱之爲共享 RMSProp，矢量g是shar在線程之間進行更新，並且不會被鎖定，而是異步更新。線程之間共享統計數據也減少了內存的要求...

... RMSProp共享統計數據往往比更強大的RMSProp與每個線程的統計，這又比SGD勢頭更強勁。」

-1

主要訓練循環是worker.py here和意見在單獨的線程產生here

2017-08-09 04:26:52

雅羅斯拉夫進一步的參考，謝謝你提的這個實現，但它究竟是不具有的特徵a'm議論紛紛。它使用Adam優化器和每個工作者梯度計算。我會編輯我的問題，以更具體。 –

Miy osuda的A3C實現（在https://github.com/miyosuda/async_deep_reinforce處發現）利用共享的RMSProp統計信息通過培訓線程。

2017-08-09 14:54:06 joabim

謝謝！我忽略了該存儲庫。 –

回答