4

嘿,我對機器學習領域真的很陌生,最近開始閱讀Tom Mitchell的「機器學習」一書,他在第一章的講座關於估算訓練值並調整權重。對估算培訓價值的概念的解釋是很好的,但我明白要解釋所有這些並不容易,所以如果有人能夠指向我的資源(講座視頻或簡單的演講幻燈片,或者一些文本片斷),其中談到了估計訓練數據等的概念。關於評估訓練值和調整重量的具體機器學習查詢

再次抱歉,我無法提供更多關於我所問問題的信息。如果有人閱讀了本書,並且在理解這些章節中描述的概念時遇到同樣的問題,那麼本書的章節1.2.4.1和1.2.4.2在「機器學習由湯姆米切爾」中。

在此先感謝。

回答

4

啊。經典教科書。我的副本有點過時,但看起來像我的第1.2.4節處理與您的主題相同的主題。

首先,這是一個介紹性的章節,試圖成爲一般性和非恐嚇性的,但因此它也非常抽象且有點模糊。在這一點上,我不會太擔心你不瞭解這些概念,而是更傾向於反思它。後面的章節將充實現在看起來不清楚的東西。

在該上下文中應該理解爲質量或性能的某種狀態或實例的的測量,不作爲「值」,如在一般的數字。以他的棋子爲例,具有高價值的狀態是對於電腦玩家來說良好/有利的棋盤狀態。

這裏的主要想法是,如果你能提供可與相遇,有一組規則,定義其狀態可以從當前狀態做哪些動作可以達到每一種可能的狀態,那麼你可以做出明智的決定,採取何種行動。

但是,爲狀態賦值對於遊戲的最終狀態來說只是一項微不足道的任務。達到最終狀態的值通常稱爲獎勵。目標當然是最大化獎勵。 估算訓練值是指根據稍後在遊戲中獲得的結果將猜測值分配給中間狀態的過程。

因此,在玩許多訓練遊戲時,你會保持你遇到的狀態的痕跡,並且如果你發現狀態X處於狀態Y,你可以根據當前狀態改變X的估計值估計X和Y的當前估計。這就是「估計訓練權重」的全部內容。通過反覆訓練,該模型經驗豐富,估計值應收斂於可靠值。它將開始避免導致失敗的舉動,並支持導致勝利的舉措。做這種更新的方式有很多種,還有很多不同的方式來表示遊戲狀態,但這就是本書其餘部分的內容。

我希望這有助於!

+0

嘿非常感謝您的回覆,我想我有點過度思考它。我會採取你的建議,並進一步閱讀,並嘗試理解這本書,但我認爲我能夠從你的帖子中掌握第一章的基本概念,所以感謝。 – anonuser0428