1

我試圖用DeepLearning4j庫實現Java中的deep deterministic policy gradient algorithm,但我在實現策略梯度時遇到了一些問題。使用DeepLearning4J的DDPG策略梯度

在許多tensorflow實現政策梯度使用以下簡單的命令

tf.gradients(output, network_params, -action_gradient) 

可以在此使用DeepLearning4J庫,以及一個簡單的方法來進行計算?

+0

你可能想看看rl4j:https://github.com/deeplearning4j/rl4j我們A3C,政策漸變,..和什麼不是已經建立 –

+0

我已經研究了DQN和A3C的實現,但我認爲這是不同的。 DDPG具有以下[政策梯度](https://i.stack.imgur.com/blLMa.gif)。 Q的行爲梯度不是問題,但策略輸出的梯度與參數有關。在其他實現中,可以使用明確的損失函數,但我無法弄清楚如何在此處執行此操作。稍微改述一下我的問題。 1)你如何獲得輸出的梯度和參數?所以2個輸出和10個參數的梯度應該是2x10。 2)我可以有效地將它與Q的動作梯度相結合嗎? – Bart

回答

0
+0

歡迎來到Stack Overflow。一個可能的解決方案的鏈接總是受歡迎的,但請在鏈接上添加上下文,以便您的同行用戶可以瞭解它是什麼以及它爲什麼在那裏。如果目標網站無法訪問或永久離線,請始終引用重要鏈接中最相關的部分。考慮到僅僅是一個鏈接到外部網站是一個可能的原因[爲什麼和如何刪除一些答案?](https://stackoverflow.com/help/deleted-answers) – Gary99