2016-04-21 36 views
1

我讀過一些關於AlphaGo的新聞文章,他們都提到AlphaGo從首次玩人類遊戲變得更好,然後與自己玩遊戲。有一件事我很好奇,AlphaGo是如何改進自己的?它是否修改代碼中的變量?還是它改變了它的代碼完全寫它本身?還是創作者添加了它?它是如何學習的?普遍的答案是好的,因爲它只是爲了我的一般知識。也許我誤解了整個概念,新聞文章傾向於給出廣泛的,有時是誤解的理解。一些清晰度會很好或鏈接到有用的信息。AlphaGo自己改進

+0

我認爲你需要閱讀的關鍵詞是「監督學習」和「無監督學習」。但後來我對AlphaGo不熟悉,他們可能完全使用了完全不同的技術。 – biziclop

+1

AlphaGo使用了大量的學習算法,但「對自己玩」部分使用了[強化學習]算法(https://en.wikipedia.org/wiki/Reinforcement_learning)算法 – BlackBear

+0

機器學習程序存儲一個訓練集,即數據描述符與「決策」信息,並用它來計算分類器的參數。一般框架已經很好地定義(預編程的訓練和分類算法),只有數據集發展。箱子裏沒有情報。在這種特殊情況下,該項目玩虛擬遊戲,並將結果用於自我訓練。 –

回答

0

AlphaGo使用機器學習。

在機器學習,你有一個函數(比如ax +b),讓你一個結果,你調這個函數(ab)的參數,使結果越來越多的你有例子相匹配。在AlphaGo的情況下,他們有兩個功能,一個選擇下一個動作,一個選擇贏誰,而且這兩個功能都非常複雜,有數千個參數。

當他們在AlphaGo的兩個實例之間玩遊戲時,他們會記錄結果並將其用作訓練函數的示例,以便下一個版本的遊戲效果更好。

如果您想了解更多信息,網絡上有很多關於機器學習如何工作的教程。