4

我在爲我的模型中的不同類型的智能體實施學習策略。說實話,我仍然不知道我應該問什麼樣的問題或從哪裏開始。在NetLogo中實施強化學習(在多智能體模型中學習)

我有兩種類型的,我希望他們的經驗中學習代理人,他們的每個具有基於可能發生的具體情況不同的獎勵措施池。 我是新來的強化學習方法,因此我應該問什麼樣的問題是我自己:)歡迎

這裏是如何我前進制訂我的問題有什麼建議:

  1. 代理有壽命和他們跟蹤這事對他們來說這些指標是不同的代理商不同,例如,一個代理需要增加一些事情,另一個想乙,而A.
  2. 國家是在代理的一生點多,他們 有多個選項(我沒有明確的定義 S大老,因爲它們可能發生幾次或不會發生,因爲在所有 代理走動,他們可能從來沒有遇到的情況)
  3. 獎勵是一個指標的增加或減少代理商可以從一個動作在特定的獲得國家和代理人不知道如果他選擇了另一個行動會有什麼收益。
  4. 增益不是恆定的,狀態沒有明確定義,並且沒有一個狀態正式轉換到另一個狀態,例如代理可以決定與共同代理(行爲1)之一共享或者所有代理人在同一地點(行動2)如果某些條件成立,行動A對該代理人的回報將更高,而在其他情況下,行動2將有更高的獎勵;我的問題是我沒有看到任何獎勵未知的例子,因爲在這種情況下共享也取決於其他代理的特徵(這會影響獎勵系統的條件),並且在不同的州會有所不同。

在我的模型有的工作和後續狀態之間沒有任何關係,這讓我不知道它的確定要考慮RL在這種情況下,在所有。

我期望在此優化的是我的代理人能夠以更好的方式推理當前情況,而不僅僅響應他們內部狀態觸發的需求。他們有幾個人物可以確定他們的長期目標,並且可以影響他們在不同情況下做出的決策,但是我希望他們記住在某種情況下的行動有助於他們增加他們的首選長期目標。

回答

3

在我的模型中,動作和以下狀態之間沒有任何關係,這讓我想知道在這種情況下是否可以考慮RL。

這似乎很奇怪。如果不改變狀態,做什麼?請注意,代理商不必知道他們的行爲將如何改變他們的狀態。同樣,動作可能會改變狀態不完美(機器人踏板可能會滑出,因此在嘗試時機器人不會移動)。事實上,一些算法是專門針對這種不確定性而設計的。

在任何情況下,即使代理人在沒有任何控制的情況下圍繞狀態空間移動,它仍然可以獲知不同狀態的獎勵。事實上,許多RL算法涉及半隨機地圍繞狀態空間移動以找出獎勵的內容。

我沒有爲美國一個明確的定義,因爲它們可能發生幾次或不是因爲代理走動發生在所有的,他們可能從來沒有面對的情況

你可能會考慮擴大善有善報進入你認爲是「國家」的地方。例如,這個位置看起來應該是肯定會進入識別狀態的變量。並非所有的州都需要獲得回報(儘管良好的RL算法通常會推斷中性狀態的好處)。

我會建議明確定義決定代理狀態的變量。例如,狀態空間可以是current-patch X internal-variable-value X other-agents-present。在最簡單的情況下,代理可以觀察構成其狀態的所有變量。但是,有些算法不需要這個。代理應該總是處於一個狀態,即使該州沒有獎勵價值。

現在,關於未知的獎勵。這其實完全沒問題。獎勵可以是random variable。在這種情況下,應用標準RL算法的一種簡單方法是在決策時使用變量的expected value。如果分佈是未知的,那麼該算法可以僅使用到目前爲止觀察到的獎勵的平均值。

或者,您可以在狀態的定義中包含決定獎勵的變量。這樣,如果獎勵發生變化,那麼它實際上處於不同的狀態。例如,假設機器人在建築物的頂部。它需要到達它前面的建築頂部。如果它向前移動,它會落地。因此,該州的回報非常低。但是,如果它首先放置從一座建築物到另一座建築物的木板,然後向前移動,則獎勵會發生變化。爲了表示這一點,我們可以包含plank-in-place作爲變量,以便將板放置在適當的位置,實際上改變了機器人的當前狀態以及前進所導致的狀態。因此,獎勵本身並沒有改變。它只是處於不同的狀態。

希望這有助於!

更新2/7/2018:最近upvote提醒我這個問題的存在。自從被問到這些年以來,我在很大程度上深入到NetLogo的RL中。特別是,我爲NetLogo製作了一個python extension,主要是爲了更容易將機器學習算法與模型集成。 One of the demos在模型運行時使用深度Q學習來訓練一系列代理。

+0

非常感謝您,正如我所說的,我沒有明確的國家定義,我的模擬關注的是社交互惠交流,例如分享和偷竊或什麼都不做,但所有這些行爲可能並不適用於所有代理,因爲有些基於他們內部的狀態通常會分享和其他人偷竊,但是,每種行爲都有一系列不同的行爲,例如他們只能與團體內成員或團體成員共享,或者他們可以決定從這個決定影響了代理人的聲譽和自我滿足度 – Marzy

+0

你的回答有很大的幫助,因爲我是RL新手,我不確定我應該問自己什麼樣的問題:D – Marzy

+1

我很高興它有助於!關於行動的可用性:可用行動應完全由國家決定。請記住,內部變量可以包含在狀態中。所以,如果一個行動者傾向於不偷盜,那麼這種傾向就是國家的一部分,而且這種行爲是不可用的。同樣,假設代理人離組外代理比較近,因此可以竊取代理。這是一個國家。現在假設代理人接近組內代理,因此不能竊取。這是一個不同的狀態。通過這種方式,狀態決定了代理可以採取的行動。 –