我想實現強化學習連接四個代理程序。 我不確定如何操作以及它應該如何操作。我熟悉強化學習的理論方面,但不知道如何實施。想實現強化學習連接四個代理程序
應該怎麼做? 我應該使用TD(lambda)還是Q-learning,以及MinMax樹如何實現這一目標? 我的Q和V函數是如何工作的(動作質量和狀態值)。我如何評分這些東西?我改進的基本政策是什麼,我的模型是什麼? 另一件事是我應該如何保存狀態或statesXactions(取決於學習算法)。我應該使用神經網絡嗎?如果是,如何?
我正在使用JAVA。
謝謝。
我不確定任何人都可以回答這個問題,而不只是告訴你如何去做。我會開始,我想要實現什麼,我想學習什麼,希望這些決定會變得更清晰。 – 2012-01-10 10:07:46
聽到別人怎麼做會有很大幫助 – Vadiklk 2012-01-10 10:15:25
既然你這樣做是爲了興趣,我會首先使用最簡單和有趣的方法。我喜歡神經網絡,所以我會試試,但爲了真正學習,你應該研究這些主題(它們本身就是博士),看看每種方法是多麼容易或有效。 – 2012-01-10 10:18:36