2016-07-06 107 views
0

在網格世界中,如果我開始按照初始策略採取行動作爲可用操作之間的離散分佈。假設我在每個州有四個行動(北,南,東,西),現在我決定在每個州50%的時間我會選擇行動「北」。 30%的時間我會選擇行動「南」。 10%的時間行爲「東」,剩下10%的行動「西」。它對最佳政策會產生什麼影響?如果我在行動中選擇了統一的隨機分配。我想更頻繁地探索一個動作會讓q值對於那個狀態和動作對快速收斂,而且會更真實。但沒有辦法,如果我探索一個行動更多的其q值會更多。請告訴我我是否正確。可以強化學習代理學習離散分佈

回答

3

如果你的發行版允許你進入你的世界中的任何狀態,那麼隨着你的發行次數接近無限,這將不會有任何效果。也就是說,無論從哪個概率分佈中抽取您的行爲,您都將獲得恰好爲的最佳策略(假設只有一個最優策略)。

當然這在理論上適用,但在實踐中,您可能會注意到改變概率分佈的另一個副作用。

假設您處於一個只允許您選擇左側右側的世界。如果目標總是在左側,並且選擇動作的概率爲99%,那麼您將非常快速地獲得最優策略。如果選擇左側動作的概率爲1%,那麼您將非常緩慢地獲得最優策略。無論哪種方式,有足夠的情節,你將獲得最佳政策。

這同樣適用於概率分佈在情節期間可能改變的e-greedy方法。

+0

因此,這意味着我們的目標永遠都是安全的,可以採取均勻隨機分佈的行動。因爲那樣我們將總是在迭代中找到最優策略(在最小與無劇集接近無窮之間)。在分配之後採取行動並沒有特別的好處,除非我有關於目標狀態的特殊信息。就像你所說的「目標總是在左邊」。 – Prabir

+0

我想我會迴避說它總是*安全的使用統一的隨機分佈。任何分配都是安全的,只要有可能在分配後進入每個狀態。根據環境的不同,某些分配可能具有更快收斂的優點。即使對環境沒有進一步的瞭解,情況也是如此,但只有通過實驗才能找到。 – Andnp