我試圖找出梯度下降與八度。隨着每次迭代,我的觀測指數變得更大。我不確定是什麼問題,因爲我直接複製另一個函數。梯度下降:θ驅動不收斂
這裏是我的矩陣:
X = 1 98
1 94
1 93
1 88
1 84
1 82
1 79
y = 97
94
94
78
85
85
76
theta = 1
1
我使用這個公式:
theta = theta - 0.001 * (1/7) * (X' * (X * theta - y))
我想通了最佳的θ驅動用的是什麼正常的方程,但只有少數迭代後我這些數字都在幾千。任何想法有什麼不對?
爲了避免數值不穩定,實際上也可以更好地縮放數據。問題是X和Y都在100秒內,將X和Y除以100都不會改變解,但會產生相同的效果(有效地改變學習速率),但不會失去數值穩定性(大數乘法與小數數字是基本的不穩定操作之一) – lejlot