1
所以我有一個tf.Variable()
名爲W
這是shape=[1]
。tf.hessians(f,x):與單獨變量tf.gradients(tf.gradients(f,x),x)的值不同?
我知道tf.hessians(loss, W)
不等於tf.gradients(tf.gradients(loss, W), W)
,儘管它應該是同一件事:二階導數。
這裏是從哪裏獲得的問題,如果我試圖通過雙梯度更換粗麻布代碼中的小要點: https://gist.github.com/guillaume-chevalier/6b01c4e43a123abf8db69fa97532993f 然而,我注意到,如果我使用雙梯度結果不收斂。