1
我讀過一些關於AlphaGo的新聞文章,他們都提到AlphaGo從首次玩人類遊戲變得更好,然後與自己玩遊戲。有一件事我很好奇,AlphaGo是如何改進自己的?它是否修改代碼中的變量?還是它改變了它的代碼完全寫它本身?還是創作者添加了它?它是如何學習的?普遍的答案是好的,因爲它只是爲了我的一般知識。也許我誤解了整個概念,新聞文章傾向於給出廣泛的,有時是誤解的理解。一些清晰度會很好或鏈接到有用的信息。AlphaGo自己改進
我認爲你需要閱讀的關鍵詞是「監督學習」和「無監督學習」。但後來我對AlphaGo不熟悉,他們可能完全使用了完全不同的技術。 – biziclop
AlphaGo使用了大量的學習算法,但「對自己玩」部分使用了[強化學習]算法(https://en.wikipedia.org/wiki/Reinforcement_learning)算法 – BlackBear
機器學習程序存儲一個訓練集,即數據描述符與「決策」信息,並用它來計算分類器的參數。一般框架已經很好地定義(預編程的訓練和分類算法),只有數據集發展。箱子裏沒有情報。在這種特殊情況下,該項目玩虛擬遊戲,並將結果用於自我訓練。 –