我大致遵循this教程來感受簡單的張量計算。對於那些不希望點擊鏈接,它是嵌合Y =蠟質+ B的簡單OLS問題,與真正的溶液爲:y = 2×Tensorflow AdamOptimizer vs漸變下降
和有下面的代碼和輸出
import tensorflow as tf
tf.reset_default_graph()
import numpy as np
x = tf.placeholder(tf.float32, [None, 1]) # 1d input vector
W = tf.Variable(tf.zeros([1,1]))
b = tf.Variable(tf.zeros([1]))
y = tf.matmul(x,W) + b
y_res = tf.placeholder(tf.float32, [None, 1])
cost = tf.reduce_sum(tf.pow(y - y_res, 2))
x_l = np.array([[i] for i in range(100)])
y_l = 2 * x_l
train = tf.train.GradientDescentOptimizer(0.000001).minimize(cost)
init = tf.initialize_all_variables()
with tf.Session() as sess:
sess.run(init)
for i in range(5):
feed = {x: x_l,y_res:y_l}
sess.run(train, feed_dict=feed)
print ("iteration", i)
print ("W", sess.run(W))
print ("B", sess.run(b))
爲其我得到合理的答覆
('iteration', 0)
('W', array([[ 1.31340003]], dtype=float32))
('B', array([ 0.0198], dtype=float32))
('iteration', 1)
('W', array([[ 1.76409423]], dtype=float32))
('B', array([ 0.02659338], dtype=float32))
('iteration', 2)
('W', array([[ 1.91875029]], dtype=float32))
('B', array([ 0.02892353], dtype=float32))
('iteration', 3)
('W', array([[ 1.97182059]], dtype=float32))
('B', array([ 0.02972212], dtype=float32))
('iteration', 4)
('W', array([[ 1.99003172]], dtype=float32))
('B', array([ 0.02999515], dtype=float32))
不過,我一直在尋找,以採取進一步的事情,並瞭解一些實施其他優化的,特別是ADAM
看這個優化的效果,我改變了相關線路
train = tf.train.AdamOptimizer().minimize(cost)
這給略顯奇怪的結果:
('iteration', 0)
('W', array([[ 0.001]], dtype=float32))
('B', array([ 0.001], dtype=float32))
('iteration', 1)
('W', array([[ 0.00199998]], dtype=float32))
('B', array([ 0.00199998], dtype=float32))
('iteration', 2)
('W', array([[ 0.00299994]], dtype=float32))
('B', array([ 0.00299994], dtype=float32))
('iteration', 3)
('W', array([[ 0.00399987]], dtype=float32))
('B', array([ 0.00399987], dtype=float32))
('iteration', 4)
('W', array([[ 0.00499976]], dtype=float32))
('B', array([ 0.00499976], dtype=float32))
現在,我已經在這裏學習率等好惹的,但我有些困惑,爲什麼這是一個難以融合的時刻。沒有人有任何的直覺,爲什麼這個優化是在這樣一個很重要的問題未能
你說得對,最終確實會收斂。所花的時間數量驚人,雖然 – user3684792