我覺得一個錯誤是在第二個公式使用R(1, 5)
。如果你讀了課文,你會發現,你在狀態3
目前正在和你隨機挑選狀態1
去:
對於下一集,我們先從一個隨機選擇的初始狀態。 這一次,我們有狀態3作爲我們的初始狀態。
看看矩陣R的第四行;它有3種可能的動作:進入狀態1,2或4.通過隨機選擇,我們選擇作爲我們的動作進入狀態1。
R(3, 1)
是0
,並在文章後面的更新Q
矩陣也有Q(3, 1)
填入值。
然後,公式應該是:
Q(3, 1) = R(3, 1) + 0.8 * Max[Q(1, 3), Q(1, 5)] = 0 + 0.8 * 100 = 80
(1, 2)
是-1
,所以我想利用是一個錯誤。該文本甚至說:
現在我們想象我們處於狀態1.看第二行獎勵矩陣R(即狀態1)。它有2個可能的動作:進入狀態3或狀態5
所以R(1, 5)
不會改變:它總是100
。它有時與R(3, 1)
混淆。
更新
這裏是我認爲應該對清晰度和正確性,我認爲它應該說,爲了什麼要改變的教程中的另一部分。我粗體顯示了我所做的更改。
矩陣Q,Q(5,1),Q(5,4),Q(5,5)的更新條目全部爲零。由於R(5,1)的即時回報,Q(1,5)的計算結果爲100。這個結果不會改變Q矩陣。
更改爲:
矩陣Q的更新的條目,Q(5,1),Q(5,4),Q(5,5)(如,來自先前操作更新)都是零。由於來自R(1,5)的即時獎勵,對於Q(1,5)的這種計算的結果是100。這個結果不會改變Q矩陣。
乍一看,我會說這只是文章中的一個錯誤。儘管獎勵可能有一個隨機組件,但這裏的環境是確定性的。 – maxy
我的第一條評論之前我讀得不夠多。深入研究這篇文章,我對自己正在發生的事情變得非常困惑。問題在於 - 錯誤在哪裏,因爲整個前提似乎從確定方式轉向前進,轉變爲對你剛剛做出的舉動的回顧性評估(爲什麼我們要從隨機狀態3移動到1,然後評估從1開始移動,沒有評估從狀態3開始的移動?狀態3在那裏的目的是什麼?) – roganjosh
我越看越容易混淆。我建議找一個不同的指導:)'由於R(5,1)'即時,不,因爲R(5,1)爲0,所以對Q(1,5)的計算結果是100,因爲R ?另外,他們將100放在附加圖像Q矩陣中的錯誤位置,我懷疑方程之間存在複製/粘貼錯誤,但我無法解開預期過程應該是什麼樣子。 – roganjosh