reinforcement-learning

1熱度

2回答

是否有充分了解何時使用退出與簡單獲取更多數據的指導原則？我以前瞭解到，如果有足夠的數據，就不會希望使用丟失。然而，最近我有一個模型（4層LSTM處理音頻輸入），無論我提供多少數據，它都會經驗性地收斂到一定的損失 - 然後當我添加丟失時顯着改善。這個現象很好理解嗎？即使有更多（可能是無限的）數據可用，那麼是否應該始終使用退出？後續工作：如果是這樣，我還沒有在RL論文中看到很多關於輟學的提及。我認

0熱度

1回答

鋼筋學習，擺蟒

我很難找到一個很好的懸擺問題函數，我正在使用的函數：-x ** 2 + - 0.25 *（xdot ** 2）這是二次函數從頂部錯誤。其中x表示擺的當前位置，x表示角速度。它需要很多時間使用此功能，有時不起作用。任何人有其他建議嗎？我一直在尋找在谷歌，但沒有發現任何東西我可以用

4熱度

1回答

NEAT vs增強學習

據我所知，NEAT（Augmenting Topologies的Neuroevolution）是一種使用進化概念來訓練神經網絡的算法。另一方面，強化學習是一種機器學習，具有「獎勵」更多成功節點的概念。這兩個字段之間有什麼區別，因爲它們看起來很相似？或者NEAT來自強化學習？

1熱度

1回答

ε-貪婪策略隨着探索速度的降低

我想在Q學習中實施ε-貪婪策略動作選擇策略。這裏很多人都用過，下面的公式進行勘探的下降速度， ɛ= E ^（ - 恩） N =代理人的年齡 E =開採參數但我不清楚這個「n」是什麼意思？對特定狀態動作對的訪問次數或者是迭代次數？非常感謝

10熱度

1回答

如何使softmax與政策漸變一起工作？

我正在嘗試更改Karpathy的代碼，以便它可以與softmax函數一起使用，以便我可以將它用於超過2個操作的遊戲。但是，我無法讓它工作。有人可以幫助我指出正確的方向嗎？謝謝。以下是我的嘗試。 """ Trains an agent with (stochastic) Policy Gradients on Pong. Uses OpenAI Gym. """ import numpy as n

5熱度

1回答

爲強化學習算法提供高效數據供給

我目前在TensorFlow中實現深度雙Q學習算法。我有一個基於NumPy數組實現的體驗重播緩衝區。但是，一些性能分析表明，使用feed_dict將NumPy數組中的數據饋送到圖形的效率非常低。這也在文檔https://www.tensorflow.org/performance/performance_guide中指出。有沒有人有建議可以更有效地完成餵養？使用靜態數據集可以通過輸入管道（如記錄

0熱度

1回答

強化學習中無限狀態空間模型的構建

強化學習中有無限狀態空間模型的任何材料或講座嗎？或者如何着手創造一個可以擁有無限狀態空間的環境。我期望通過強化學習來生成文本，因此上面的任何指導也會有所幫助。

-4熱度

1回答

您可以開發自己的AI玩家的策略/管理遊戲

我最近剛畢業於計算機科學與人工智能學位，但我覺得我沒有太多的實踐，我已經學會了。我有興趣嘗試實施某種機器學習方法或玩弄自己的想法，我想知道是否有任何遊戲暴露了API，我可以使用或以其他方式允許實現計算機播放器並運行多個遊戲學習的目的等等。我特別感興趣的是策略類遊戲，任何類似帝國時代的RTS遊戲都可以打開像文明類似的東西。儘管我很樂意接受任何可能有趣的建議。

2熱度

1回答

井字遊戲的神經網絡

我寫的可以玩井字遊戲的神經網絡。網絡有9個輸入神經元，它們描述板的狀態（1代表網絡移動，1.5代表對手移動，0代表空單元格）和9個輸出神經元（輸出神經元的最高值表示給定的最佳動作州）。網絡沒有隱藏層。激活函數 - sigmoid。學習方法 - Q學習+反向傳播。網絡訓練有素，但效果很差（繼續佔用被佔用的小區）。所以我決定添加一個隱藏層。我想問：隱藏層中要使用哪個神經元的數量以及哪些激活函數更適

0熱度

1回答

如何在Burlap中創建圖形域的初始狀態節點？

https://classroom.udacity.com/courses/ud600/lessons/3780788560/concepts/40374085350923 在以上的鏈接是指，爲了創建一個圖形域的初始狀態執行該命令： GraphDefinedDomain.getState（域，0）但是的getState確實不作爲當前Burlap庫的靜態方法存在。那麼如何創建Burlap中圖形域