2017-01-04 61 views
0

在Q學習算法中,動作的選擇取決於當前狀態和Q矩陣的值。我想知道這些Q值是僅在勘探步驟中更新還是在開採步驟中也會更改。在Q學習中的探索和利用

回答

1

如果你讀了Q學習算法的代碼,例如從Sutton & Barto bookenter image description here

似乎很清楚,Q值會不斷地更新,如果獨立選擇的動作是探索性的或者不是。

注意,行「從Q衍生小號使用策略選擇一個(例如,ε-貪婪)」是指該操作有時會探索性的。

+0

謝謝先生對此回覆 – user22

+0

不客氣!如果回覆對您有用,只需將其標記爲「已接受的回覆」(點擊投票箭頭左側的勾號(複選標記)即可。)更多信息,請訪問:http://meta.stackexchange.com/questions/23138/如何接受堆棧上的應答溢出 :-) –