您的位置：首頁 > 新聞 > 高新技術(shù) > 新聞詳情

人機(jī)圍棋大戰(zhàn)首局落定：谷歌人工智能先下一城！

時(shí)間：2016-03-09 16:51:27

來源：互聯(lián)網(wǎng)
作者：newtype2001
編輯：newtype2001

李世石簡(jiǎn)介

李世石與AlphaGo對(duì)弈

李世石是李昌鎬之后，韓國(guó)最具代表性的棋手，他在2003年獲第16屆富士通杯冠軍后升為九段棋手。自2002年加冕富士通杯以來，十年時(shí)間里他共獲18個(gè)世界冠軍。李世石屬于典型的力戰(zhàn)型棋風(fēng)，善于敏銳地抓住對(duì)手的弱處主動(dòng)出擊，以強(qiáng)大的力量擊垮對(duì)手，他的攻擊可以用“穩(wěn)，準(zhǔn)，狠”來形容，經(jīng)常能在劣勢(shì)下完成逆轉(zhuǎn)。

AlphaGo去年10月?lián)魯W洲冠軍

谷歌曾于2014年以4億歐元收購人工智能公司DeepMind。由DeepMind研發(fā)的AlphaGo項(xiàng)目已有兩年歷史，AlphaGo曾在去年戰(zhàn)勝了歐洲圍棋冠軍樊麾(職業(yè)二段)。

去年10月5日-10月9日，谷歌AlphaGo在比賽中以5：0的比分完勝了歐洲冠軍。除了戰(zhàn)勝人類外，AlphaGo還與其他的圍棋程序?qū)?zhàn)，獲得了500場(chǎng)勝利。

AlphaGo原理簡(jiǎn)介

傳統(tǒng)的人工智能方法是將所有可能的走法構(gòu)建成一棵搜索樹，但這種方法對(duì)圍棋并不適用。此次谷歌推出的AlphaGo，將高級(jí)搜索樹與深度神經(jīng)網(wǎng)絡(luò)結(jié)合在一起。這些神經(jīng)網(wǎng)絡(luò)通過12個(gè)處理層傳遞對(duì)棋盤的描述，處理層則包含數(shù)百萬個(gè)類似于神經(jīng)的連接點(diǎn)。

其中一個(gè)神經(jīng)網(wǎng)絡(luò)“決策網(wǎng)絡(luò)”(policy network)負(fù)責(zé)選擇下一步走法，另一個(gè)神經(jīng)網(wǎng)絡(luò)“值網(wǎng)絡(luò)”(“value network)則預(yù)測(cè)比賽勝利方。谷歌方面用人類圍棋高手的三千萬步圍棋走法訓(xùn)練神經(jīng)網(wǎng)絡(luò)，與此同時(shí)，AlphaGo也自行研究新戰(zhàn)略，在它的神經(jīng)網(wǎng)絡(luò)之間運(yùn)行了數(shù)千局圍棋，利用反復(fù)試驗(yàn)調(diào)整連接點(diǎn)，這個(gè)流程也稱為鞏固學(xué)習(xí)(reinforcement learning)，通過廣泛使用Google云平臺(tái)，完成了大量研究工作。

AlphaGo在與人的對(duì)弈中用了“兩個(gè)大腦”來解決問題：“決策網(wǎng)絡(luò)”和“值網(wǎng)絡(luò)”。通俗來說就是，一個(gè)大腦用來決策當(dāng)前應(yīng)該如何落子，另一個(gè)大腦來預(yù)測(cè)比賽最終的勝利方。

值得一提的是，李世石也是第一次與機(jī)器對(duì)戰(zhàn)，所以他無法像和人類對(duì)戰(zhàn)那樣，先研究對(duì)方的棋譜和下棋風(fēng)格。李世石所能做的就是和自己對(duì)弈。谷歌AlphaGo也是通過這種方式鍛煉自己，真正做到了“人工智能”。