0 就我所瞭解的Q學習而言,Q值是特定狀態動作對的「有多好」的量度。這通常是在下列方式之一表來表示(見圖):Q表表示 都表示是否有效? 如果將Q表作爲狀態轉換表(如圖中頂部q表所示)給出,那麼如何確定最佳操作,特別是如果狀態轉換不是確定性的(即採取從政府行爲可以在不同的時間降落在你不同的狀態?) 來源 2017-03-02 5mali +1 @Pablo EM - 感謝您的編輯。真的很感激它。 – 5mali
1 號一般情況下,一個動作不等同於一個特定狀態的轉換。可以有與狀態不同的動作數量,相同的動作可能導致不同的狀態,這取決於它執行的狀態,並且不同的動作可能導致相同的狀態。轉換也可以是隨機的。 參見(1)。 來源 2017-03-02 06:11:28 +0 從你的答案我會得出結論,頂部的q表不是一個正確的表示,而底部是q表的正確表示。我是否正確? – 5mali +0 @ 5mali的確如此。 – +0 @ Don Reba謝謝^ _ ^。現在一切都說得通了。 – 5mali
@Pablo EM - 感謝您的編輯。真的很感激它。 – 5mali