我知道前饋神經網絡的基礎知識,以及如何使用反向傳播算法訓練它們,但是我正在尋找一種算法,而不是我可以用來在線訓練ANN以進行強化學習。例如,cart pole swing up問題是我想用ANN解決的問題。在那種情況下,我不知道應該怎樣控制鐘擺,我只知道我離理想位置有多近。我需要根據獎勵和懲罰讓ANN學習。因此,監督學習不是一種選擇。使用增強學習訓練神經網絡
另一種情況類似於snake game,其中反饋延遲,並限於目標和反目標,而不是獎勵。
我能想到的第一種情況的一些算法,如爬山或遺傳算法,但我猜他們都會很慢。它們也可能適用於第二種情況,但速度非常慢,並且不利於在線學習。
我的問題很簡單:是否有一個簡單的算法來訓練具有強化學習的人工神經網絡?我主要對實時獎勵情況感興趣,但是如果有基於目標的情況的算法可用,甚至更好。
好問題,我在想幾乎完全一樣的東西,在我的情況下神經網絡是經常性的。關鍵之一是你正在談論2種不同的學習算法。除非您有辦法解決這些問題,否則您不能將兩種不同的學習算法應用於同一問題而不會導致衝突。 –