學習層次強化任務的結構

我一直在研究層級強化學習問題，雖然很多論文提出了有趣的學習策略方法，但他們似乎都假設他們事先知道一個描述行爲的圖結構在域中。例如，Dietterich的The MAXQ Method for Hierarchial Reinforcement Learning描述了一個簡單的Taxi域的動作和子任務的複雜圖形，但不是這個圖形被發現的方式。你如何學習這個圖的層次結構，而不僅僅是政策？學習層次強化任務的結構

來源

2010-09-27 Cerin

您也可以嘗試在這裏張貼您的問題：http://stats.stackexchange.com – Theodor 2010-09-27 07:04:50

我們能有關於該方案更多一些想法，其你想學習分層加固結構？或者這是一個普遍的問題？ – 2010-09-27 11:02:03

@Amit，這是一個普遍的問題。以文中的例子來說，如果一個出租車在漫無目的的環境中思考，並且沒有事先了解這個世界，只有原始的左移，右移等行動纔會採取，那麼它將如何學習更高層次的行爲，如前往-pick向上乘客？如果我正確理解論文（我可能不會），它會提出如何更新高層行動的政策，但不是如何組建它們。 – Cerin 2010-09-27 16:15:30

在Dietterich的MAXQ中，圖形是手動構建的。它被認爲是系統設計者的一項任務，就像提出一個表示空間和獎勵函數一樣。

根據您想要達到的目標，您可能需要自動分解狀態空間，學習相關功能或將經驗從簡單任務轉移到更復雜的任務。

我建議你剛開始閱讀引用MAXQ鏈接的論文。如果不知道你想達到什麼目的，我不能說是非常具有說服力的（而且我並不是真正處於當前RL研究的首位），但是你可能會在羅爾，貝爾& McCollum或由邁登文章&豪利。

來源

2010-09-27 18:16:37

說有這個代理在那裏移動處理事情。你不知道它的內部目標（任務圖）。你如何推斷其目標？

在途中，這是不可能的。就像我不可能知道當你放下那個盒子時你有什麼目標：也許你累了，也許你看到了一隻殺手蜂，也許你不得不撒尿......

你正試圖模擬代理人的內部目標結構。爲了做到這一點，你需要一些指導，以確定哪些是可能的目標，以及這些目標是如何由行爲表現的。在研究文獻中，這個問題已經在「計劃識別」和「使用POMDP（部分可觀察馬爾可夫決策過程）」這兩個術語下進行了研究，但是這兩種技術都假設你知道其他代理的目標。

如果你對自己的目標一無所知，你所能做的就是推斷上述模型之一（這就是我們人類所做的事情，我假設其他人有同樣的目標，我從未想過，「哦，他放棄了他的筆記本電腦，他必須準備好放一個雞蛋「cse，他是一個人類）或者將它塑造成一個黑盒子：一個簡單的狀態到行動功能然後根據需要添加內部狀態（嗯，有人必須已經寫了一篇論文，但我不知道是誰）。

來源

2010-09-27 10:30:06

在我提到的問題中，代理沒有任何內部目標。我問代理人如何學習目標和子目標的層次結構。在我提到的論文中，這個層次是預定義的。如果它不是預定義的，並且代理只能執行原始操作，它將如何學習一個層次結構來加速它的規劃和學習？ – Cerin 2010-09-27 12:56:58

啊，所以，你的意思是你怎麼寫一個學習更高層次概念的代理，比如「最接近的乘客」......這很難。這個問題提醒了SOAR小組在「組塊」和基於殼體的推理和基於解釋的學習領域的工作（但他們仍然需要一個領域理論）。 – 2010-09-27 16:40:32

本文描述一種方法是一個很好的起點：

N.梅塔，S.雷，P. Tadepalli和T. Dietterich。自動發現和傳輸MAXQ層次結構。在國際會議上機器學習，2008年

http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

來源

2010-10-06 23:25:32 thesilverbail

學習層次強化任務的結構

回答

相關問題