2
假設log_prob是一個向量而不是標量。以下代碼會做什麼? 謝謝!當損失是一個向量時tf.trian.optimizer的行爲是什麼
```
optimizer = tf.train.AdamOptimizer(0.001)
minimize = optimizer.minimize(log_prob)
session.run(minimize, feed_dict={action : act, feat : s_batch})
```
它只是將log_prob求和而不是計算雅可比矩陣。請參閱此處的討論:https://github.com/tensorflow/tensorflow/issues/675 –
@AllenLavoie - 你能否將你的評論變成答案,因爲你釘了它?謝謝! – dga