2

我一直在研究層級強化學習問題,雖然很多論文提出了有趣的學習策略方法,但他們似乎都假設他們事先知道一個描述行爲的圖結構在域中。例如,Dietterich的The MAXQ Method for Hierarchial Reinforcement Learning描述了一個簡單的Taxi域的動作和子任務的複雜圖形,但不是這個圖形被發現的方式。你如何學習這個圖的層次結構,而不僅僅是政策?學習層次強化任務的結構

+0

您也可以嘗試在這裏張貼您的問題 :http://stats.stackexchange.com – Theodor 2010-09-27 07:04:50

+0

我們能有關於該方案更多一些想法,其你想學習分層加固結構?或者這是一個普遍的問題? – 2010-09-27 11:02:03

+0

@Amit,這是一個普遍的問題。以文中的例子來說,如果一個出租車在漫無目的的環境中思考,並且沒有事先了解這個世界,只有原始的左移,右移等行動纔會採取,那麼它將如何學習更高層次的行爲,如前往-pick向上乘客?如果我正確理解論文(我可能不會),它會提出如何更新高層行動的政策,但不是如何組建它們。 – Cerin 2010-09-27 16:15:30

回答

1

在Dietterich的MAXQ中,圖形是手動構建的。它被認爲是系統設計者的一項任務,就像提出一個表示空間和獎勵函數一樣。

根據您想要達到的目標,您可能需要自動分解狀態空間,學習相關功能或將經驗從簡單任務轉移到更復雜的任務。

我建議你剛開始閱讀引用MAXQ鏈接的論文。如果不知道你想達到什麼目的,我不能說是非常具有說服力的(而且我並不是真正處於當前RL研究的首位),但是你可能會在羅爾,貝爾& McCollum或由邁登文章&豪利。

0

說有這個代理在那裏移動處理事情。你不知道它的內部目標(任務圖)。你如何推斷​​其目標?

在途中,這是不可能的。就像我不可能知道當你放下那個盒子時你有什麼目標:也許你累了,也許你看到了一隻殺手蜂,也許你不得不撒尿......

你正試圖模擬代理人的內部目標結構。爲了做到這一點,你需要一些指導,以確定哪些是可能的目標,以及這些目標是如何由行爲表現的。在研究文獻中,這個問題已經在「計劃識別」和「使用POMDP(部分可觀察馬爾可夫決策過程)」這兩個術語下進行了研究,但是這兩種技術都假設你知道其他代理的目標。

如果你對自己的目標一無所知,你所能做的就是推斷上述模型之一(這就是我們人類所做的事情,我假設其他人有同樣的目標,我從未想過,「哦,他放棄了他的筆記本電腦,他必須準備好放一個雞蛋「cse,他是一個人類)或者將它塑造成一個黑盒子:一個簡單的狀態到行動功能然後根據需要添加內部狀態(嗯,有人必須已經寫了一篇論文,但我不知道是誰)。

+0

在我提到的問題中,代理沒有任何內部目標。我問代理人如何學習目標和子目標的層次結構。在我提到的論文中,這個層次是預定義的。如果它不是預定義的,並且代理只能執行原始操作,它將如何學習一個層次結構來加速它的規劃和學習? – Cerin 2010-09-27 12:56:58

+0

啊,所以,你的意思是你怎麼寫一個學習更高層次概念的代理,比如「最接近的乘客」......這很難。這個問題提醒了SOAR小組在「組塊」和基於殼體的推理和基於解釋的學習領域的工作(但他們仍然需要一個領域理論)。 – 2010-09-27 16:40:32