我在爲我的模型中的不同類型的智能體實施學習策略。說實話,我仍然不知道我應該問什麼樣的問題或從哪裏開始。在NetLogo中實施強化學習(在多智能體模型中學習)
我有兩種類型的,我希望他們的經驗中學習代理人,他們的每個具有基於可能發生的具體情況不同的獎勵措施池。 我是新來的強化學習方法,因此我應該問什麼樣的問題是我自己:)歡迎
這裏是如何我前進制訂我的問題有什麼建議:
- 代理有壽命和他們跟蹤這事對他們來說這些指標是不同的代理商不同,例如,一個代理需要增加一些事情,另一個想乙,而A.
- 國家是在代理的一生點多,他們 有多個選項(我沒有明確的定義 S大老,因爲它們可能發生幾次或不會發生,因爲在所有 代理走動,他們可能從來沒有遇到的情況)
- 獎勵是一個指標的增加或減少代理商可以從一個動作在特定的獲得國家和代理人不知道如果他選擇了另一個行動會有什麼收益。
- 增益不是恆定的,狀態沒有明確定義,並且沒有一個狀態正式轉換到另一個狀態,例如代理可以決定與共同代理(行爲1)之一共享或者所有代理人在同一地點(行動2)如果某些條件成立,行動A對該代理人的回報將更高,而在其他情況下,行動2將有更高的獎勵;我的問題是我沒有看到任何獎勵未知的例子,因爲在這種情況下共享也取決於其他代理的特徵(這會影響獎勵系統的條件),並且在不同的州會有所不同。
在我的模型有的工作和後續狀態之間沒有任何關係,這讓我不知道它的確定要考慮RL在這種情況下,在所有。
我期望在此優化的是我的代理人能夠以更好的方式推理當前情況,而不僅僅響應他們內部狀態觸發的需求。他們有幾個人物可以確定他們的長期目標,並且可以影響他們在不同情況下做出的決策,但是我希望他們記住在某種情況下的行動有助於他們增加他們的首選長期目標。
非常感謝您,正如我所說的,我沒有明確的國家定義,我的模擬關注的是社交互惠交流,例如分享和偷竊或什麼都不做,但所有這些行爲可能並不適用於所有代理,因爲有些基於他們內部的狀態通常會分享和其他人偷竊,但是,每種行爲都有一系列不同的行爲,例如他們只能與團體內成員或團體成員共享,或者他們可以決定從這個決定影響了代理人的聲譽和自我滿足度 – Marzy
你的回答有很大的幫助,因爲我是RL新手,我不確定我應該問自己什麼樣的問題:D – Marzy
我很高興它有助於!關於行動的可用性:可用行動應完全由國家決定。請記住,內部變量可以包含在狀態中。所以,如果一個行動者傾向於不偷盜,那麼這種傾向就是國家的一部分,而且這種行爲是不可用的。同樣,假設代理人離組外代理比較近,因此可以竊取代理。這是一個國家。現在假設代理人接近組內代理,因此不能竊取。這是一個不同的狀態。通過這種方式,狀態決定了代理可以採取的行動。 –