Q

在Q學習中的探索和利用

2017-01-04 61 views 0 likes

0

在Q學習算法中，動作的選擇取決於當前狀態和Q矩陣的值。我想知道這些Q值是僅在勘探步驟中更新還是在開採步驟中也會更改。在Q學習中的探索和利用

2017-01-04 user22

A

回答

1

如果你讀了Q學習算法的代碼，例如從Sutton & Barto book：

似乎很清楚，Q值會不斷地更新，如果獨立選擇的動作是探索性的或者不是。

注意，行「從Q衍生小號使用策略選擇一個（例如，ε-貪婪）」是指該操作有時會探索性的。

2017-01-06 15:28:50

+0

謝謝先生對此回覆 – user22

+0

不客氣！如果回覆對您有用，只需將其標記爲「已接受的回覆」（點擊投票箭頭左側的勾號（複選標記）即可。）更多信息，請訪問：http://meta.stackexchange.com/questions/23138/如何接受堆棧上的應答溢出 :-) –

相關問題