2

我希望我的RL代理儘快達到目標,同時儘量減少使用特定資源T的次數(有時這是必要的)。如何在RL計劃中設立即時獎勵?

我想設置立即獎勵爲每步-1,如果代理使用T,則額外爲-1,如果達到目標則爲0。

但是附加-1完全是任意的,我該如何決定代理人使用T需要多少懲罰?

回答

1

您應該使用模仿您自己的價值的獎勵功能。如果資源昂貴(對你有用),那麼對它進行處罰應該是苛刻的。同樣的事情需要時間(如果你仔細想想,這也是一種資源)。

如果兩種懲罰(時間消耗和資源消耗的懲罰)之間的比率與您對這些資源的評估方式相符,那麼代理將按您的興趣行事。如果你弄錯了(因爲也許你不知道資源的精確成本和慢速學習的確切成本),那麼它會努力尋找一個僞最優解,而不是最優解,在很多情況下好的。