2017-08-09 33 views
0

是否有開源的基於Tensorflow的A3C強化學習算法的實現?帶有共享統計優化器的Tensorflow A3C實現

*我知道PyTorchChainer版本的A3C共享RMSProp統計信息。但沒有找到TF一個。

Shared RMSProp設置。我想詢問在Supp.7描述的原paper

」 ......爲了在異步優化 申請RMSProp設定一個必須決定是否按元素的移動平均線我們用兩個版本的算法進行了實驗,在一個版本中,我們稱之爲RMSProp, 每個線程都維護自己的g ...

...在其他版本,我們稱之爲共享 RMSProp,矢量g是shar在線程之間進行更新,並且不會被鎖定,而是異步更新。線程之間共享 統計數據也減少了內存的要求...

... RMSProp共享統計數據往往比 更強大的RMSProp與每個線程的統計,這又比SGD勢頭更強勁。」

回答

-1

這裏有一個實施 https://github.com/openai/universe-starter-agent

主要訓練循環是worker.py here和意見在單獨的線程產生here

+0

雅羅斯拉夫進一步的參考,謝謝你提的這個實現,但它究竟是不具有的特徵a'm議論紛紛。它使用Adam優化器和每個工作者梯度計算。我會編輯我的問題,以更具體。 –