1

我想在Q學習中實施ε-貪婪策略動作選擇策略。這裏很多人都用過,下面的公式進行勘探的下降速度,ε-貪婪策略隨着探索速度的降低

ɛ= E ^( - 恩)

N =代理人的年齡

E =開採參數

但我不清楚這個「n」是什麼意思?對特定狀態動作對的訪問次數或者是迭代次數?

非常感謝

回答

1

有幾個有效的答案爲您的問題。從理論的角度來看,爲了達到收斂,Q學習要求所有的狀態動作對無限次地(漸近地)被訪問。

以前的情況可以通過很多方式實現。在我看來,將n簡單解釋爲時間步數,即代理與環境執行了多少次交互[例如Busoniu, 2010, Chapter 2]更爲常見。

但是,在某些情況下,每種狀態的探索速率可能不同,因此n是代理訪問狀態s [例如Powell, 2011, chapter 12]的次數。

這兩種解釋同樣有效並確保(與其他條件一起)Q學習的漸近收斂。什麼時候更好地使用某種方法取決於您的特定問題,類似於您應該使用的確切數值E