ε-貪婪策略隨着探索速度的降低

我想在Q學習中實施ε-貪婪策略動作選擇策略。這裏很多人都用過，下面的公式進行勘探的下降速度，ε-貪婪策略隨着探索速度的降低

ɛ= E ^（ - 恩）

N =代理人的年齡

E =開採參數

但我不清楚這個「n」是什麼意思？對特定狀態動作對的訪問次數或者是迭代次數？

非常感謝

2017-02-20 D_Wills

有幾個有效的答案爲您的問題。從理論的角度來看，爲了達到收斂，Q學習要求所有的狀態動作對無限次地（漸近地）被訪問。

以前的情況可以通過很多方式實現。在我看來，將n簡單解釋爲時間步數，即代理與環境執行了多少次交互[例如Busoniu, 2010, Chapter 2]更爲常見。

但是，在某些情況下，每種狀態的探索速率可能不同，因此n是代理訪問狀態s [例如Powell, 2011, chapter 12]的次數。

這兩種解釋同樣有效並確保（與其他條件一起）Q學習的漸近收斂。什麼時候更好地使用某種方法取決於您的特定問題，類似於您應該使用的確切數值E。

2017-02-20 09:23:06

回答