0
  • 我工作的一個項目,RL & NN
  • 我需要確定將被輸送到一個神經網絡的動作矢量結構的學習..

我有3個不同的動作(A & B & Nothing)每個都有不同的功率(例如A100 A50 B100 B50) 我想知道爲了獲得最佳結果而將這些動作饋送到NN的最佳方式是什麼?加固神經網絡

1-進料A/B至輸入端1,而動作功率100/50 /沒什麼輸入2

2-飼料A100/A50 /沒什麼輸入1,而B100/B50 /沒有可輸入2

3-飼料A100/A50至輸入端1,而B100/B50到輸入2,而沒有什麼標誌來輸入3

4-另外喂100 & 50或它們歸一化爲2 & 1?

我不需要理由爲什麼要選擇一個方法 任何建議,建議

感謝

+0

有多少輸出,以及你想在各種輸入上發生什麼?除非您指定「最佳結果」,否則沒有人能夠幫助您。 (順便說一句,有多少投入,他們應該如何互動?) – 2010-05-26 21:10:01

回答

1

你想學什麼?應該輸出什麼? 輸入是否只是用過的操作? (|狀態,動作next_state)

它通常使用一個單獨的模型爲每個操作

警:如果你正在學習的環境的模型,它是由一個概率分佈來表示。 這使得輸入和輸出之間的映射更簡單。 輸入是狀態特徵的向量。輸出是下一個狀態特徵的向量。使用的操作是由模型暗示的。

狀態特徵可以編碼爲位。有效位表示存在某個功能。

這將學習確定性模型。我不知道什麼是學習下一個州的隨機模型的好方法。一種可能性可能是使用隨機神經元。