您的位置: 首頁 > 新聞 > 時事焦點(diǎn) > 新聞詳情

AlphaGo之父:關(guān)于圍棋,人類3000年來犯了一個錯

時間:2017-04-14 13:31:35
  • 來源:互聯(lián)網(wǎng)
  • 作者:NT
  • 編輯:newtype2001

4月10日,“人機(jī)大戰(zhàn)”的消息再次傳出,關(guān)于人類和AI的對抗再次牽動世界的神經(jīng)。

“我會抱必勝心態(tài)、必死信念。我一定要擊敗阿爾法狗!”對于5月23日至27日與圍棋人工智能程序AlphaGo(阿爾法狗)的對弈,目前世界排名第一的中國職業(yè)九段柯潔放出豪言。然而,AlphaGo(阿爾法狗)之父卻說,“我們發(fā)明阿爾法狗,并不是為了贏取圍棋比賽。”

AlphaGo之父杰米斯·哈薩比斯(Demis Hassabis)近日在母校英國劍橋大學(xué)做了一場題為“超越人類認(rèn)知的極限”的演講,解答了世人對于人工智能,對于阿爾法狗的諸多疑問——過去3000年里人類低估了棋局哪個區(qū)域的重要性?阿爾法狗去年贏了韓國職業(yè)九段李世石靠哪幾個絕招?今年年初拿下數(shù)位國際大師的神秘棋手Master究竟是不是阿爾法狗?為什么圍棋是人工智能難解之謎?

杰米斯·哈薩比斯,DeepMind創(chuàng)始人,AlphaGo之父。

杰米斯·哈薩比斯,DeepMind創(chuàng)始人,AlphaGo之父。

杰米斯·哈薩比斯,DeepMind創(chuàng)始人,AlphaGo(阿爾法狗)之父,4歲開始下象棋,8歲時在棋盤上的成功促使他開始思考兩個至今令他困擾的問題:第一,人腦是如何學(xué)會完成復(fù)雜任務(wù)的?第二,電腦能否做到這一點(diǎn)?17歲時,哈薩比斯就負(fù)責(zé)了經(jīng)典模擬游戲《主題公園》的開發(fā),并在1994年發(fā)布。他隨后讀完了劍橋大學(xué)計算機(jī)科學(xué)學(xué)位,2005年進(jìn)入倫敦大學(xué)學(xué)院,攻讀神經(jīng)科學(xué)博士學(xué)位,希望了解真正的大腦究竟是如何工作的,以此促進(jìn)人工智能的發(fā)展。2014年他創(chuàng)辦公司DeepMind,公司產(chǎn)品阿爾法狗在2016年大戰(zhàn)圍棋冠軍李世石事件上一舉成名。

哈薩比斯在當(dāng)天的演講中透露了韓國棋手李世石去年輸給阿爾法狗的致命原因,他最后也提到了阿爾法狗即將迎戰(zhàn)的中國棋手柯潔,他說,“柯潔也在網(wǎng)上和阿爾法狗對決過,比賽之后柯潔說人類已經(jīng)研究圍棋研究了幾千年了,然而人工智能卻告訴我們,我們甚至連其表皮都沒揭開。異曲同工,柯潔提到了圍棋的真理,我們在這里談的是科學(xué)的真理。”

世界圍棋冠軍柯潔即將迎戰(zhàn)阿爾法狗。

世界圍棋冠軍柯潔即將迎戰(zhàn)阿爾法狗。

澎湃新聞現(xiàn)場聆聽了AlphaGo(阿爾法狗)之父在劍橋大學(xué)歷時45分鐘的演講,干貨滿滿,請不要漏掉任何一個細(xì)節(jié):

非常感謝大家今天能夠到場,今天,我將談?wù)勅斯ぶ悄埽约癉eepMind近期在做些什么,我把這場報告命名為“超越人類認(rèn)知的極限”,我希望到了報告結(jié)束的時候,大家都清晰了解我想傳達(dá)的思想。

1、你真的知道什么是人工智能嗎?

對于不知道DeepMind公司的朋友,我做個簡單介紹,我們是在2010年于倫敦成立了這家公司,在2014年我們被谷歌收購,希望借此加快我們?nèi)斯ぶ悄芗夹g(shù)的腳步。我們的使命是什么呢?我們的首要使命便是解決人工智能問題;一旦這個問題解決了,理論上任何問題都可以被解決。這就是我們的兩大使命了,聽起來可能有點(diǎn)狡猾,但是我們真的相信,如果人工智能最基本的問題都解決了的話,沒有什么問題是困難的。

那么我們準(zhǔn)備怎樣實(shí)現(xiàn)這個目標(biāo)呢?DeepMind現(xiàn)在在努力制造世界上第一臺通用學(xué)習(xí)機(jī),大體上學(xué)習(xí)可以分為兩類:一種就是直接從輸入和經(jīng)驗(yàn)中學(xué)習(xí),沒有既定的程序或者規(guī)則可循,系統(tǒng)需要從原始數(shù)據(jù)自己進(jìn)行學(xué)習(xí);第二種學(xué)習(xí)系統(tǒng)就是通用學(xué)習(xí)系統(tǒng),指的是一種算法可以用于不同的任務(wù)和領(lǐng)域,甚至是一些從未見過的全新領(lǐng)域。大家肯定會問,系統(tǒng)是怎么做到這一點(diǎn)的?

其實(shí),人腦就是一個非常明顯的例子,這是可能的,關(guān)鍵在于如何通過大量的數(shù)據(jù)資源,尋找到最合適的解決方式和算法。我們把這種系統(tǒng)叫做通用人工智能,來區(qū)別于如今我們當(dāng)前大部分人在用的僅在某一領(lǐng)域發(fā)揮特長的狹義人工智能,這種狹義人工智能在過去的40-50年非常流行。

IBM發(fā)明的深藍(lán)系統(tǒng)(DeepBlue)就是一個很好的狹義人工智能的例子,他在上世紀(jì)90年代末期曾打敗了國際象棋冠軍加里·卡斯帕羅夫(GaryKasporov)。如今,我們到了人工智能的新的轉(zhuǎn)折點(diǎn),我們有著更加先進(jìn)、更加匹配的技術(shù)。

1997年5月,IBM與世界國際象棋冠軍加里·卡斯帕羅夫?qū)Q。

1997年5月,IBM與世界國際象棋冠軍加里·卡斯帕羅夫?qū)Q。

2、如何讓機(jī)器聽從人類的命令?

大家可能想問機(jī)器是如何聽從人類的命令的,其實(shí)并不是機(jī)器或者算法本身,而是一群聰明的編程者智慧的結(jié)晶。他們與每一位國際象棋大師對話,汲取他們的經(jīng)驗(yàn),把其轉(zhuǎn)化成代碼和規(guī)則,組建了人類最強(qiáng)的象棋大師團(tuán)隊(duì)。但是這樣的系統(tǒng)僅限于象棋,不能用于其他游戲。對于新的游戲,你需要重新開始編程。在某種程度上,這些技術(shù)仍然不夠完美,并不是傳統(tǒng)意義上的完全人工智能,其中所缺失的就是普適性和學(xué)習(xí)性。我們想通過“增強(qiáng)學(xué)習(xí)”來解決這一難題。在這里我解釋一下增強(qiáng)學(xué)習(xí),我相信很多人都了解這個算法。

首先,想像一下有一個主體,在AI領(lǐng)域我們稱我們的人工智能系統(tǒng)為主體,它需要了解自己所處的環(huán)境,并盡力找出自己要達(dá)到的目的。這里的環(huán)境可以指真實(shí)事件,可以是機(jī)器人,也可以是虛擬世界,比如游戲環(huán)境;主體通過兩種方式與周圍環(huán)境接觸;它先通過觀察熟悉環(huán)境,我們起初通過視覺,也可以通過聽覺、觸覺等,我們也在發(fā)展多感覺的系統(tǒng);

第二個任務(wù),就是在此基礎(chǔ)上,建模并找出最佳選擇。這可能涉及到對未來的預(yù)期,想像,以及假設(shè)檢驗(yàn)。這個主體經(jīng)常處在真實(shí)環(huán)境中,當(dāng)時間節(jié)點(diǎn)到了的時候,系統(tǒng)需要輸出當(dāng)前找到的最佳方案。這個方案可能或多或少會改變所處環(huán)境,從而進(jìn)一步驅(qū)動觀察的結(jié)果,并反饋給主體。

簡單來說,這就是增強(qiáng)學(xué)習(xí)的原則,示意圖雖然簡單,但是其中卻涉及了極其復(fù)雜的算法和原理。如果我們能夠解決大部分問題,我們就能夠搭建普適人工智能。這是因?yàn)閮蓚€主要原因:首先,從數(shù)學(xué)角度來講,我的合伙人,一名博士,他搭建了一個系統(tǒng)叫‘AI-XI’,用這個模型,他證明了在計算機(jī)硬件條件和時間無限的情況下,搭建一個普適人工智能,需要的信息。另外,從生物角度來講,動物和人類等,人類的大腦是多巴胺控制的,它在執(zhí)行增強(qiáng)學(xué)習(xí)的行為。因此,不論是從數(shù)學(xué)的角度,還是生物的角度,增強(qiáng)學(xué)習(xí)是一個有效的解決人工智能問題的工具。

3、為什么圍棋是人工智能難解之謎?

接下來,我要主要講講我們最近的技術(shù),那就是去年誕生的阿爾法狗;希望在座的大家了解這個游戲,并嘗試玩玩,這是個非常棒的游戲。圍棋使用方形格狀棋盤及黑白二色圓形棋子進(jìn)行對弈,棋盤上有縱橫各19條直線將棋盤分成361個交叉點(diǎn),棋子走在交叉點(diǎn)上,雙方交替行棋,以圍地多者為勝。圍棋規(guī)則沒有多復(fù)雜,我可以在五分鐘之內(nèi)教給大家。這張圖展示的就是一局已結(jié)束,整個棋盤基本布滿棋子,然后數(shù)一下你的棋子圈出的空間以及對方棋子圈出的空間,誰的空間大,誰就獲勝。在圖示的這場勢均力敵的比賽中,白棋一格之差險勝。

白棋以一格之差險勝。

白棋以一格之差險勝。

其實(shí),了解這個游戲的最終目的非常難,因?yàn)樗⒉幌裣笃迥菢樱兄苯用鞔_的目標(biāo),在圍棋里,完全是憑直覺的,甚至連如何決定游戲結(jié)束對于初學(xué)者來說,都很難。圍棋是個歷史悠久的游戲,有著3000多年的歷史,起源于中國,在亞洲,圍棋有著很深的文化意義。孔子還曾指出,圍棋是每一個真正的學(xué)者都應(yīng)該掌握的四大技能之一(琴棋書畫),所以在亞洲圍棋是種藝術(shù),專家們都會玩。

如今,這個游戲更加流行,有4000萬人在玩圍棋,超過2000多個頂級專家,如果你在4-5歲的時候就展示了圍棋的天賦,這些小孩將會被選中,并進(jìn)入特殊的專業(yè)圍棋學(xué)校,在那里,學(xué)生從6歲起,每天花12個小時學(xué)習(xí)圍棋,一周七天,天天如此。直到你成為這個領(lǐng)域的專家,才可以離開學(xué)校畢業(yè)。這些專家基本是投入人生全部的精力,去揣摩學(xué)習(xí)掌握這門技巧,我認(rèn)為圍棋也許是最優(yōu)雅的一種游戲了。

像我說的那樣,這個游戲只有兩個非常簡單的規(guī)則,而其復(fù)雜性卻是難以想象的,一共有10170(10的170次方)種可能性,這個數(shù)字比整個宇宙中的原子數(shù)1080(10的80次方)都多的去了,是沒有辦法窮舉出圍棋所有的可能結(jié)果的。我們需要一種更加聰明的方法。你也許會問為什么計算機(jī)進(jìn)行圍棋的游戲會如此困難,1997年,IBM的人工智能DeepBlue(深藍(lán))打敗了當(dāng)時的象棋世界冠軍GarryKasparov,圍棋一直是人工智能領(lǐng)域的難解之謎。我們能否做出一個算法來與世界圍棋冠軍競爭呢?要做到這一點(diǎn),有兩個大的挑戰(zhàn):

一、搜索空間龐大(分支因數(shù)就有200),一個很好的例子,就是在圍棋中,平均每一個棋子有兩百個可能的位置,而象棋僅僅是20。圍棋的分支因數(shù)遠(yuǎn)大于象棋。

二、比這個更難的是,幾乎沒有一個合適的評價函數(shù)來定義誰是贏家,贏了多少;這個評價函數(shù)對于該系統(tǒng)是至關(guān)重要的。而對于象棋來說,寫一個評價函數(shù)是非常簡單的,因?yàn)橄笃宀粌H是個相對簡單的游戲,而且是實(shí)體的,只用數(shù)一下雙方的棋子,就能輕而易舉得出結(jié)論了。你也可以通過其他指標(biāo)來評價象棋,比如棋子移動性等。

所有的這些在圍棋里都是不可能的,并不是所有的部分都一樣,甚至一個小小部分的變動,會完全變化格局,所以每一個小的棋子都對棋局有著至關(guān)重要的影響。最難的部分是,我稱象棋為毀滅性的游戲,游戲開始的時候,所有的棋子都在棋盤上了,隨著游戲的進(jìn)行,棋子被對方吃掉,棋子數(shù)目不斷減少,游戲也變得越來越簡單。相反,圍棋是個建設(shè)性的游戲,開始的時候,棋盤是空的,慢慢的下棋雙方把棋盤填滿。

因此,如果你準(zhǔn)備在中場判斷一下當(dāng)前形勢,在象棋里,你只需看現(xiàn)在的棋盤,就能告訴你大致情況;在圍棋里,你必須評估未來可能會發(fā)生什么,才能評估當(dāng)前局勢,所以相比較而言,圍棋難得多。也有很多人試著將DeepBlue的技術(shù)應(yīng)用在圍棋上,但是結(jié)果并不理想,這些技術(shù)連一個專業(yè)的圍棋手都打不贏,更別說世界冠軍了。

所以大家就要問了,連電腦操作起來都這么難,人類是怎樣解決這個問題的?其實(shí),人類是靠直覺的,而圍棋一開始就是一個靠直覺而非計算的游戲。所以,如果你問一個象棋選手,為什么這步這樣走,他會告訴你,這樣走完之后,下一步和下下一步會怎樣走,就可以達(dá)到什么樣的目的。這樣的計劃,有時候也許不盡如人意,但是起碼選手是有原因的。

然而圍棋就不同了,如果你去問世界級的大師,為什么走這一步,他們經(jīng)?;卮鹉阒庇X告訴他這么走,這是真的,他們是沒法描述其中的原因的。我們通過用加強(qiáng)學(xué)習(xí)的方式來提高人工神經(jīng)網(wǎng)絡(luò)算法,希望能夠解決這一問題。我們試圖通過深度神經(jīng)網(wǎng)絡(luò)模仿人類的這種直覺行為,在這里,需要訓(xùn)練兩個神經(jīng)網(wǎng)絡(luò),一種是決策網(wǎng)絡(luò),我們從網(wǎng)上下載了成百萬的業(yè)余圍棋游戲,通過監(jiān)督學(xué)習(xí),我們讓阿爾法狗模擬人類下圍棋的行為;我們從棋盤上任意選擇一個落子點(diǎn),訓(xùn)練系統(tǒng)去預(yù)測下一步人類將作出的決定;系統(tǒng)的輸入是在那個特殊位置最有可能發(fā)生的前五或者前十的位置移動;這樣,你只需看那5-10種可能性,而不用分析所有的200種可能性了。

一旦我們有了這個,我們對系統(tǒng)進(jìn)行幾百萬次的訓(xùn)練,通過誤差加強(qiáng)學(xué)習(xí),對于贏了的情況,讓系統(tǒng)意識到,下次出現(xiàn)類似的情形時,更有可能做相似的決定。相反,如果系統(tǒng)輸了,那么下次再出現(xiàn)類似的情況,就不會選擇這種走法。我們建立了自己的游戲數(shù)據(jù)庫,通過百萬次的游戲,對系統(tǒng)進(jìn)行訓(xùn)練,得到第二種神經(jīng)網(wǎng)絡(luò)。選擇不同的落子點(diǎn),經(jīng)過置信區(qū)間進(jìn)行學(xué)習(xí),選出能夠贏的情況,這個幾率介于0-1之間,0是根本不可能贏,1是百分之百贏。

通過把這兩個神經(jīng)網(wǎng)絡(luò)結(jié)合起來(決策網(wǎng)絡(luò)和數(shù)值網(wǎng)絡(luò)),我們可以大致預(yù)估出當(dāng)前的情況。這兩個神經(jīng)網(wǎng)絡(luò)樹,通過蒙特卡洛算法,把這種本來不能解決的問題,變得可以解決。我們網(wǎng)羅了大部分的圍棋下法,然后和歐洲的圍棋冠軍比賽,結(jié)果是阿爾法狗贏了,那是我們的第一次突破,而且相關(guān)算法還被發(fā)表在《自然》科學(xué)雜志。

接下來,我們在韓國設(shè)立了100萬美元的獎金,并在2016年3月,與世界圍棋冠軍李世石進(jìn)行了對決。李世石先生是圍棋界的傳奇,在過去的10年里都被認(rèn)為是最頂級的圍棋專家。我們與他進(jìn)行對決,發(fā)現(xiàn)他有非常多創(chuàng)新的玩法,有的時候阿爾法狗很難掌控。比賽開始之前,世界上每個人(包括他本人在內(nèi))都認(rèn)為他一定會很輕松就打贏這五場比賽,但實(shí)際結(jié)果是我們的阿爾法狗以4:1獲勝。圍棋專家和人工智能領(lǐng)域的專家都稱這具有劃時代的意義。對于業(yè)界人員來說,之前根本沒想到。

友情提示:支持鍵盤左右鍵"←""→"翻頁
0

玩家點(diǎn)評 0人參與,0條評論)

收藏
違法和不良信息舉報
分享:

熱門評論

全部評論

他們都在說 再看看
3DM自運(yùn)營游戲推薦 更多+