2015-02-09 155 views
3

我想在我的q值迭代算法中使用隨機策略。據我所知,隨機政策是從特定國家選擇行動的可能性。另一方面,Q值是處於狀態動作對中的值。我如何結合兩者?如何將隨機策略與Q值迭代相結合?

+0

您可以考慮在http://cstheory.stackexchange.com/上提出這個問題,而不是/除此之外,特別是如果這是一個純粹的理論問題而不是與特定的技術或語言綁定。 – 2015-02-09 13:59:07

+0

如何移動該問題或在那裏發佈新問題? – 2015-02-09 15:26:58

+0

我不一定會把它移動,因爲你可能會在這裏得到一些答案。版主可以提出問題,但如果在一段時間後你沒有得到任何答案,我會說在那裏問一個新問題。 – 2015-02-09 16:28:31

回答

2

這方面的一個例子是在Q學習期間用於增加探索的epsilon-greedy方法。

在這種情況下,您按照Q(s,a)定義的最佳操作,以概率epsilon(介於0和1之間)進行抽取,然後以概率1-epsilon進行隨機操作。