使用DeepLearning4J的DDPG策略梯度

我試圖用DeepLearning4j庫實現Java中的deep deterministic policy gradient algorithm，但我在實現策略梯度時遇到了一些問題。使用DeepLearning4J的DDPG策略梯度

在許多tensorflow實現政策梯度使用以下簡單的命令

tf.gradients(output, network_params, -action_gradient)

可以在此使用DeepLearning4J庫，以及一個簡單的方法來進行計算？

來源

2017-05-04 Bart

你可能想看看rl4j：https://github.com/deeplearning4j/rl4j我們A3C，政策漸變，..和什麼不是已經建立 –

我已經研究了DQN和A3C的實現，但我認爲這是不同的。 DDPG具有以下[政策梯度]（https://i.stack.imgur.com/blLMa.gif）。 Q的行爲梯度不是問題，但策略輸出的梯度與參數有關。在其他實現中，可以使用明確的損失函數，但我無法弄清楚如何在此處執行此操作。稍微改述一下我的問題。 1）你如何獲得輸出的梯度和參數？所以2個輸出和10個參數的梯度應該是2x10。 2）我可以有效地將它與Q的動作梯度相結合嗎？ – Bart

實施政策傾斜，如圖外部錯誤〔實施例的工作很適合我

https://github.com/deeplearning4j/dl4j-examples/blob/master/dl4j-examples/src/main/java/org/deeplearning4j/examples/misc/externalerrors/MultiLayerNetworkExternalErrors.java

來源

2017-05-29 20:59:30 nobody

歡迎來到Stack Overflow。一個可能的解決方案的鏈接總是受歡迎的，但請在鏈接上添加上下文，以便您的同行用戶可以瞭解它是什麼以及它爲什麼在那裏。如果目標網站無法訪問或永久離線，請始終引用重要鏈接中最相關的部分。考慮到僅僅是一個鏈接到外部網站是一個可能的原因[爲什麼和如何刪除一些答案？]（https://stackoverflow.com/help/deleted-answers） – Gary99

使用DeepLearning4J的DDPG策略梯度

回答

相關問題