啊。經典教科書。我的副本有點過時,但看起來像我的第1.2.4節處理與您的主題相同的主題。
首先,這是一個介紹性的章節,試圖成爲一般性和非恐嚇性的,但因此它也非常抽象且有點模糊。在這一點上,我不會太擔心你不瞭解這些概念,而是更傾向於反思它。後面的章節將充實現在看起來不清楚的東西。
值在該上下文中應該理解爲質量或性能的某種狀態或實例的的測量,不作爲「值」,如在一般的數字。以他的棋子爲例,具有高價值的狀態是對於電腦玩家來說良好/有利的棋盤狀態。
這裏的主要想法是,如果你能提供可與值相遇,有一組規則,定義其狀態可以從當前狀態做哪些動作可以達到每一種可能的狀態,那麼你可以做出明智的決定,採取何種行動。
但是,爲狀態賦值對於遊戲的最終狀態來說只是一項微不足道的任務。達到最終狀態的值通常稱爲獎勵。目標當然是最大化獎勵。 估算訓練值是指根據稍後在遊戲中獲得的結果將猜測值分配給中間狀態的過程。
因此,在玩許多訓練遊戲時,你會保持你遇到的狀態的痕跡,並且如果你發現狀態X處於狀態Y,你可以根據當前狀態改變X的估計值估計X和Y的當前估計。這就是「估計訓練權重」的全部內容。通過反覆訓練,該模型經驗豐富,估計值應收斂於可靠值。它將開始避免導致失敗的舉動,並支持導致勝利的舉措。做這種更新的方式有很多種,還有很多不同的方式來表示遊戲狀態,但這就是本書其餘部分的內容。
我希望這有助於!
嘿非常感謝您的回覆,我想我有點過度思考它。我會採取你的建議,並進一步閱讀,並嘗試理解這本書,但我認爲我能夠從你的帖子中掌握第一章的基本概念,所以感謝。 – anonuser0428