您的位置：首頁 > 新聞 > 時事焦點 > 新聞詳情

AlphaGo之父：關(guān)于圍棋，人類3000年來犯了一個錯

時間：2017-04-14 13:31:35

來源：互聯(lián)網(wǎng)
作者：NT
編輯：newtype2001

4月10日，“人機大戰(zhàn)”的消息再次傳出，關(guān)于人類和AI的對抗再次牽動世界的神經(jīng)。

“我會抱必勝心態(tài)、必死信念。我一定要擊敗阿爾法狗！”對于5月23日至27日與圍棋人工智能程序AlphaGo（阿爾法狗）的對弈，目前世界排名第一的中國職業(yè)九段柯潔放出豪言。然而，AlphaGo（阿爾法狗）之父卻說，“我們發(fā)明阿爾法狗，并不是為了贏取圍棋比賽。”

AlphaGo之父杰米斯·哈薩比斯（Demis Hassabis）近日在母校英國劍橋大學(xué)做了一場題為“超越人類認知的極限”的演講，解答了世人對于人工智能，對于阿爾法狗的諸多疑問——過去3000年里人類低估了棋局哪個區(qū)域的重要性?阿爾法狗去年贏了韓國職業(yè)九段李世石靠哪幾個絕招?今年年初拿下數(shù)位國際大師的神秘棋手Master究竟是不是阿爾法狗?為什么圍棋是人工智能難解之謎?

杰米斯·哈薩比斯，DeepMind創(chuàng)始人，AlphaGo之父。

杰米斯·哈薩比斯，DeepMind創(chuàng)始人，AlphaGo（阿爾法狗）之父，4歲開始下象棋，8歲時在棋盤上的成功促使他開始思考兩個至今令他困擾的問題：第一，人腦是如何學(xué)會完成復(fù)雜任務(wù)的?第二，電腦能否做到這一點?17歲時，哈薩比斯就負責(zé)了經(jīng)典模擬游戲《主題公園》的開發(fā)，并在1994年發(fā)布。他隨后讀完了劍橋大學(xué)計算機科學(xué)學(xué)位，2005年進入倫敦大學(xué)學(xué)院，攻讀神經(jīng)科學(xué)博士學(xué)位，希望了解真正的大腦究竟是如何工作的，以此促進人工智能的發(fā)展。2014年他創(chuàng)辦公司DeepMind，公司產(chǎn)品阿爾法狗在2016年大戰(zhàn)圍棋冠軍李世石事件上一舉成名。

哈薩比斯在當天的演講中透露了韓國棋手李世石去年輸給阿爾法狗的致命原因，他最后也提到了阿爾法狗即將迎戰(zhàn)的中國棋手柯潔，他說，“柯潔也在網(wǎng)上和阿爾法狗對決過，比賽之后柯潔說人類已經(jīng)研究圍棋研究了幾千年了，然而人工智能卻告訴我們，我們甚至連其表皮都沒揭開。異曲同工，柯潔提到了圍棋的真理，我們在這里談的是科學(xué)的真理。”

世界圍棋冠軍柯潔即將迎戰(zhàn)阿爾法狗。

澎湃新聞現(xiàn)場聆聽了AlphaGo（阿爾法狗）之父在劍橋大學(xué)歷時45分鐘的演講，干貨滿滿，請不要漏掉任何一個細節(jié)：

非常感謝大家今天能夠到場，今天，我將談?wù)勅斯ぶ悄?，以及DeepMind近期在做些什么，我把這場報告命名為“超越人類認知的極限”，我希望到了報告結(jié)束的時候，大家都清晰了解我想傳達的思想。

1、你真的知道什么是人工智能嗎?

對于不知道DeepMind公司的朋友，我做個簡單介紹，我們是在2010年于倫敦成立了這家公司，在2014年我們被谷歌收購，希望借此加快我們?nèi)斯ぶ悄芗夹g(shù)的腳步。我們的使命是什么呢?我們的首要使命便是解決人工智能問題;一旦這個問題解決了，理論上任何問題都可以被解決。這就是我們的兩大使命了，聽起來可能有點狡猾，但是我們真的相信，如果人工智能最基本的問題都解決了的話，沒有什么問題是困難的。

那么我們準備怎樣實現(xiàn)這個目標呢?DeepMind現(xiàn)在在努力制造世界上第一臺通用學(xué)習(xí)機，大體上學(xué)習(xí)可以分為兩類：一種就是直接從輸入和經(jīng)驗中學(xué)習(xí)，沒有既定的程序或者規(guī)則可循，系統(tǒng)需要從原始數(shù)據(jù)自己進行學(xué)習(xí);第二種學(xué)習(xí)系統(tǒng)就是通用學(xué)習(xí)系統(tǒng)，指的是一種算法可以用于不同的任務(wù)和領(lǐng)域，甚至是一些從未見過的全新領(lǐng)域。大家肯定會問，系統(tǒng)是怎么做到這一點的?

其實，人腦就是一個非常明顯的例子，這是可能的，關(guān)鍵在于如何通過大量的數(shù)據(jù)資源，尋找到最合適的解決方式和算法。我們把這種系統(tǒng)叫做通用人工智能，來區(qū)別于如今我們當前大部分人在用的僅在某一領(lǐng)域發(fā)揮特長的狹義人工智能，這種狹義人工智能在過去的40-50年非常流行。

IBM發(fā)明的深藍系統(tǒng)（DeepBlue）就是一個很好的狹義人工智能的例子，他在上世紀90年代末期曾打敗了國際象棋冠軍加里·卡斯帕羅夫（GaryKasporov）。如今，我們到了人工智能的新的轉(zhuǎn)折點，我們有著更加先進、更加匹配的技術(shù)。

1997年5月，IBM與世界國際象棋冠軍加里·卡斯帕羅夫?qū)Q。

2、如何讓機器聽從人類的命令?

大家可能想問機器是如何聽從人類的命令的，其實并不是機器或者算法本身，而是一群聰明的編程者智慧的結(jié)晶。他們與每一位國際象棋大師對話，汲取他們的經(jīng)驗，把其轉(zhuǎn)化成代碼和規(guī)則，組建了人類最強的象棋大師團隊。但是這樣的系統(tǒng)僅限于象棋，不能用于其他游戲。對于新的游戲，你需要重新開始編程。在某種程度上，這些技術(shù)仍然不夠完美，并不是傳統(tǒng)意義上的完全人工智能，其中所缺失的就是普適性和學(xué)習(xí)性。我們想通過“增強學(xué)習(xí)”來解決這一難題。在這里我解釋一下增強學(xué)習(xí)，我相信很多人都了解這個算法。

首先，想像一下有一個主體，在AI領(lǐng)域我們稱我們的人工智能系統(tǒng)為主體，它需要了解自己所處的環(huán)境，并盡力找出自己要達到的目的。這里的環(huán)境可以指真實事件，可以是機器人，也可以是虛擬世界，比如游戲環(huán)境;主體通過兩種方式與周圍環(huán)境接觸;它先通過觀察熟悉環(huán)境，我們起初通過視覺，也可以通過聽覺、觸覺等，我們也在發(fā)展多感覺的系統(tǒng);

第二個任務(wù)，就是在此基礎(chǔ)上，建模并找出最佳選擇。這可能涉及到對未來的預(yù)期，想像，以及假設(shè)檢驗。這個主體經(jīng)常處在真實環(huán)境中，當時間節(jié)點到了的時候，系統(tǒng)需要輸出當前找到的最佳方案。這個方案可能或多或少會改變所處環(huán)境，從而進一步驅(qū)動觀察的結(jié)果，并反饋給主體。

簡單來說，這就是增強學(xué)習(xí)的原則，示意圖雖然簡單，但是其中卻涉及了極其復(fù)雜的算法和原理。如果我們能夠解決大部分問題，我們就能夠搭建普適人工智能。這是因為兩個主要原因：首先，從數(shù)學(xué)角度來講，我的合伙人，一名博士，他搭建了一個系統(tǒng)叫‘AI-XI’，用這個模型，他證明了在計算機硬件條件和時間無限的情況下，搭建一個普適人工智能，需要的信息。另外，從生物角度來講，動物和人類等，人類的大腦是多巴胺控制的，它在執(zhí)行增強學(xué)習(xí)的行為。因此，不論是從數(shù)學(xué)的角度，還是生物的角度，增強學(xué)習(xí)是一個有效的解決人工智能問題的工具。

3、為什么圍棋是人工智能難解之謎?

接下來，我要主要講講我們最近的技術(shù)，那就是去年誕生的阿爾法狗;希望在座的大家了解這個游戲，并嘗試玩玩，這是個非常棒的游戲。圍棋使用方形格狀棋盤及黑白二色圓形棋子進行對弈，棋盤上有縱橫各19條直線將棋盤分成361個交叉點，棋子走在交叉點上，雙方交替行棋，以圍地多者為勝。圍棋規(guī)則沒有多復(fù)雜，我可以在五分鐘之內(nèi)教給大家。這張圖展示的就是一局已結(jié)束，整個棋盤基本布滿棋子，然后數(shù)一下你的棋子圈出的空間以及對方棋子圈出的空間，誰的空間大，誰就獲勝。在圖示的這場勢均力敵的比賽中，白棋一格之差險勝。

白棋以一格之差險勝。

其實，了解這個游戲的最終目的非常難，因為它并不像象棋那樣，有著直接明確的目標，在圍棋里，完全是憑直覺的，甚至連如何決定游戲結(jié)束對于初學(xué)者來說，都很難。圍棋是個歷史悠久的游戲，有著3000多年的歷史，起源于中國，在亞洲，圍棋有著很深的文化意義?？鬃舆€曾指出，圍棋是每一個真正的學(xué)者都應(yīng)該掌握的四大技能之一（琴棋書畫），所以在亞洲圍棋是種藝術(shù)，專家們都會玩。

如今，這個游戲更加流行，有4000萬人在玩圍棋，超過2000多個頂級專家，如果你在4-5歲的時候就展示了圍棋的天賦，這些小孩將會被選中，并進入特殊的專業(yè)圍棋學(xué)校，在那里，學(xué)生從6歲起，每天花12個小時學(xué)習(xí)圍棋，一周七天，天天如此。直到你成為這個領(lǐng)域的專家，才可以離開學(xué)校畢業(yè)。這些專家基本是投入人生全部的精力，去揣摩學(xué)習(xí)掌握這門技巧，我認為圍棋也許是最優(yōu)雅的一種游戲了。

像我說的那樣，這個游戲只有兩個非常簡單的規(guī)則，而其復(fù)雜性卻是難以想象的，一共有10170（10的170次方）種可能性，這個數(shù)字比整個宇宙中的原子數(shù)1080（10的80次方）都多的去了，是沒有辦法窮舉出圍棋所有的可能結(jié)果的。我們需要一種更加聰明的方法。你也許會問為什么計算機進行圍棋的游戲會如此困難，1997年，IBM的人工智能DeepBlue（深藍）打敗了當時的象棋世界冠軍GarryKasparov，圍棋一直是人工智能領(lǐng)域的難解之謎。我們能否做出一個算法來與世界圍棋冠軍競爭呢?要做到這一點，有兩個大的挑戰(zhàn)：

一、搜索空間龐大（分支因數(shù)就有200），一個很好的例子，就是在圍棋中，平均每一個棋子有兩百個可能的位置，而象棋僅僅是20。圍棋的分支因數(shù)遠大于象棋。

二、比這個更難的是，幾乎沒有一個合適的評價函數(shù)來定義誰是贏家，贏了多少;這個評價函數(shù)對于該系統(tǒng)是至關(guān)重要的。而對于象棋來說，寫一個評價函數(shù)是非常簡單的，因為象棋不僅是個相對簡單的游戲，而且是實體的，只用數(shù)一下雙方的棋子，就能輕而易舉得出結(jié)論了。你也可以通過其他指標來評價象棋，比如棋子移動性等。

所有的這些在圍棋里都是不可能的，并不是所有的部分都一樣，甚至一個小小部分的變動，會完全變化格局，所以每一個小的棋子都對棋局有著至關(guān)重要的影響。最難的部分是，我稱象棋為毀滅性的游戲，游戲開始的時候，所有的棋子都在棋盤上了，隨著游戲的進行，棋子被對方吃掉，棋子數(shù)目不斷減少，游戲也變得越來越簡單。相反，圍棋是個建設(shè)性的游戲，開始的時候，棋盤是空的，慢慢的下棋雙方把棋盤填滿。

因此，如果你準備在中場判斷一下當前形勢，在象棋里，你只需看現(xiàn)在的棋盤，就能告訴你大致情況;在圍棋里，你必須評估未來可能會發(fā)生什么，才能評估當前局勢，所以相比較而言，圍棋難得多。也有很多人試著將DeepBlue的技術(shù)應(yīng)用在圍棋上，但是結(jié)果并不理想，這些技術(shù)連一個專業(yè)的圍棋手都打不贏，更別說世界冠軍了。

所以大家就要問了，連電腦操作起來都這么難，人類是怎樣解決這個問題的?其實，人類是靠直覺的，而圍棋一開始就是一個靠直覺而非計算的游戲。所以，如果你問一個象棋選手，為什么這步這樣走，他會告訴你，這樣走完之后，下一步和下下一步會怎樣走，就可以達到什么樣的目的。這樣的計劃，有時候也許不盡如人意，但是起碼選手是有原因的。

然而圍棋就不同了，如果你去問世界級的大師，為什么走這一步，他們經(jīng)?；卮鹉阒庇X告訴他這么走，這是真的，他們是沒法描述其中的原因的。我們通過用加強學(xué)習(xí)的方式來提高人工神經(jīng)網(wǎng)絡(luò)算法，希望能夠解決這一問題。我們試圖通過深度神經(jīng)網(wǎng)絡(luò)模仿人類的這種直覺行為，在這里，需要訓(xùn)練兩個神經(jīng)網(wǎng)絡(luò)，一種是決策網(wǎng)絡(luò)，我們從網(wǎng)上下載了成百萬的業(yè)余圍棋游戲，通過監(jiān)督學(xué)習(xí)，我們讓阿爾法狗模擬人類下圍棋的行為;我們從棋盤上任意選擇一個落子點，訓(xùn)練系統(tǒng)去預(yù)測下一步人類將作出的決定;系統(tǒng)的輸入是在那個特殊位置最有可能發(fā)生的前五或者前十的位置移動;這樣，你只需看那5-10種可能性，而不用分析所有的200種可能性了。

一旦我們有了這個，我們對系統(tǒng)進行幾百萬次的訓(xùn)練，通過誤差加強學(xué)習(xí)，對于贏了的情況，讓系統(tǒng)意識到，下次出現(xiàn)類似的情形時，更有可能做相似的決定。相反，如果系統(tǒng)輸了，那么下次再出現(xiàn)類似的情況，就不會選擇這種走法。我們建立了自己的游戲數(shù)據(jù)庫，通過百萬次的游戲，對系統(tǒng)進行訓(xùn)練，得到第二種神經(jīng)網(wǎng)絡(luò)。選擇不同的落子點，經(jīng)過置信區(qū)間進行學(xué)習(xí)，選出能夠贏的情況，這個幾率介于0-1之間，0是根本不可能贏，1是百分之百贏。

通過把這兩個神經(jīng)網(wǎng)絡(luò)結(jié)合起來（決策網(wǎng)絡(luò)和數(shù)值網(wǎng)絡(luò)），我們可以大致預(yù)估出當前的情況。這兩個神經(jīng)網(wǎng)絡(luò)樹，通過蒙特卡洛算法，把這種本來不能解決的問題，變得可以解決。我們網(wǎng)羅了大部分的圍棋下法，然后和歐洲的圍棋冠軍比賽，結(jié)果是阿爾法狗贏了，那是我們的第一次突破，而且相關(guān)算法還被發(fā)表在《自然》科學(xué)雜志。

接下來，我們在韓國設(shè)立了100萬美元的獎金，并在2016年3月，與世界圍棋冠軍李世石進行了對決。李世石先生是圍棋界的傳奇，在過去的10年里都被認為是最頂級的圍棋專家。我們與他進行對決，發(fā)現(xiàn)他有非常多創(chuàng)新的玩法，有的時候阿爾法狗很難掌控。比賽開始之前，世界上每個人（包括他本人在內(nèi)）都認為他一定會很輕松就打贏這五場比賽，但實際結(jié)果是我們的阿爾法狗以4：1獲勝。圍棋專家和人工智能領(lǐng)域的專家都稱這具有劃時代的意義。對于業(yè)界人員來說，之前根本沒想到。

友情提示：支持鍵盤左右鍵"←""→"翻頁

相關(guān)資訊

標簽：人類

玩家點評（0人參與，0條評論）

違法和不良信息舉報

注冊

熱門評論

全部評論

AlphaGo之父：關(guān)于圍棋，人類3000年來犯了一個錯

AlphaGo之父：關(guān)于圍棋，人類3000年來犯了一個錯