AlphaGo自己改進

我讀過一些關於AlphaGo的新聞文章，他們都提到AlphaGo從首次玩人類遊戲變得更好，然後與自己玩遊戲。有一件事我很好奇，AlphaGo是如何改進自己的？它是否修改代碼中的變量？還是它改變了它的代碼完全寫它本身？還是創作者添加了它？它是如何學習的？普遍的答案是好的，因爲它只是爲了我的一般知識。也許我誤解了整個概念，新聞文章傾向於給出廣泛的，有時是誤解的理解。一些清晰度會很好或鏈接到有用的信息。AlphaGo自己改進

來源

2016-04-21 Aceboy1993

我認爲你需要閱讀的關鍵詞是「監督學習」和「無監督學習」。但後來我對AlphaGo不熟悉，他們可能完全使用了完全不同的技術。 – biziclop

AlphaGo使用了大量的學習算法，但「對自己玩」部分使用了[強化學習]算法（https://en.wikipedia.org/wiki/Reinforcement_learning）算法 – BlackBear

機器學習程序存儲一個訓練集，即數據描述符與「決策」信息，並用它來計算分類器的參數。一般框架已經很好地定義（預編程的訓練和分類算法），只有數據集發展。箱子裏沒有情報。在這種特殊情況下，該項目玩虛擬遊戲，並將結果用於自我訓練。 –

AlphaGo使用機器學習。

在機器學習，你有一個函數（比如ax +b），讓你一個結果，你調這個函數（a和b）的參數，使結果越來越多的你有例子相匹配。在AlphaGo的情況下，他們有兩個功能，一個選擇下一個動作，一個選擇贏誰，而且這兩個功能都非常複雜，有數千個參數。

當他們在AlphaGo的兩個實例之間玩遊戲時，他們會記錄結果並將其用作訓練函數的示例，以便下一個版本的遊戲效果更好。

如果您想了解更多信息，網絡上有很多關於機器學習如何工作的教程。

來源

2016-04-21 18:38:58 Sorin

AlphaGo自己改進

回答

相關問題