阿爾法狗再進(jìn)化阿爾法元碾壓老狗人工智能再引恐慌

2017-10-20 08:27:56來源：四海網(wǎng)生活頻道綜合

　　四海網(wǎng)：年谷歌研發(fā)的人工智能圍棋阿爾法狗大戰(zhàn)柯潔，以3：0取得壓倒性勝利，在圍棋界取得世界第一的段位，就在人們認(rèn)為這條人工智能狗已經(jīng)成神一樣不可戰(zhàn)勝后，谷歌團(tuán)隊研發(fā)出升級版阿法爾元，以100:0吊打阿爾法狗，引發(fā)網(wǎng)友們對人工智能的恐慌，人工智能真的會代替不完美的人類嗎?

　　美國當(dāng)?shù)貢r間10月18日，谷歌人工智能團(tuán)隊DeepMind團(tuán)隊在期刊《Nature》上發(fā)表論文，宣布一款新版的AlphaGo Zero計算機(jī)程序可以在不需要任何人類輸入的條件下，迅速自學(xué)圍棋，并以100比0的戰(zhàn)績擊敗上一代AlphaGo。這是AI歷史上又一里程碑式的重大消息。

　　新版“阿爾法圍棋”從零開始四十天成王者

　　谷歌旗下的人工智能“阿爾法圍棋”在幾次世界矚目的人機(jī)大戰(zhàn)后站在了圍棋之巔——2016年，谷歌旗下的DeepMind團(tuán)隊發(fā)布AlphaGo，并以4:1的戰(zhàn)績擊敗了世界圍棋冠軍、韓國棋手李世石，震撼世界。此后，AlphaGo又進(jìn)化出了AlphaGo Master版本，并以3：0戰(zhàn)勝了當(dāng)今世界圍棋第一人、中國棋手柯潔。功成名就后，DeepMind團(tuán)隊宣布AlphaGo退役。

　　現(xiàn)在它又以一種新的方式超越了自己：閉關(guān)一年后，DeepMind推出了最新版本的AlphaGo Zero，它在沒有任何人類指導(dǎo)的情況下，“從零開始”學(xué)習(xí)圍棋，僅用3天時間自學(xué)和訓(xùn)練，就擊敗了此前的AlphaGo，比分是100比0。值得注意的是，之前的版本都參考學(xué)習(xí)了大量人類專業(yè)棋手的圍棋經(jīng)驗，而新版的AlphaGo Zero則是自我對弈，即通過跟不同版本的自己下棋來學(xué)習(xí)。

　　英國“深度思維”公司開發(fā)出了“阿爾法圍棋”，該公司團(tuán)隊在新一期英國《自然》雜志上發(fā)表論文，介紹了最新版的“阿爾法圍棋-零”。該公司之前開發(fā)的電腦在開始學(xué)習(xí)圍棋時，舊版Alpha Go需要先學(xué)習(xí)數(shù)百萬份人類棋譜，還要經(jīng)過幾個月的密集訓(xùn)練，從而進(jìn)行自我訓(xùn)練，實現(xiàn)超越。

【震驚】史上最強(qiáng)AlphaGo來了！自學(xué)3天碾壓“老狗”！人類贏不了了？

　　第四個版本，即最新的“阿爾法圍棋-零”擺脫了這個限制，完全“從零開始”，自己與自己對弈，通過更為優(yōu)秀的算法，取得飛速進(jìn)步。

　　Zero的學(xué)習(xí)原理是這樣的：研究團(tuán)隊事先沒有給Zero學(xué)習(xí)任何人類棋譜，只告訴它圍棋的規(guī)則，就讓它自己在棋盤上下棋，與自己進(jìn)行對弈，從一次次試驗和失敗中吸取經(jīng)驗教訓(xùn)，摸索規(guī)律，在實戰(zhàn)中提高棋藝。

　　除了學(xué)習(xí)原理外，另一點與“舊狗”不同的是，Zero使用了單一的神經(jīng)網(wǎng)絡(luò)。

　　此前版本的AlphaGo都是用了兩種神經(jīng)網(wǎng)絡(luò)，一種用來預(yù)測下一步棋最好的走法，另一種用來計算，根據(jù)這些走法，誰更有可能獲勝。

　　而Zero把這兩種網(wǎng)絡(luò)合二為一，只讓神經(jīng)網(wǎng)絡(luò)預(yù)測獲勝者，從而能夠得到更高效的訓(xùn)練和評估，就好像讓一個圍棋高手來預(yù)測比賽結(jié)果一樣。

　　此外，Zero也不再使用快速而隨機(jī)的走子方法。“舊狗”會通過快速走子來預(yù)測哪個棋手會從當(dāng)前局面中獲勝，而Zero則通過高質(zhì)量的神經(jīng)網(wǎng)絡(luò)來評估棋局。

　　如此看來，“舊狗”像是走一步看三步、步步為營的棋手，而Zero更像是縱觀全局、成竹在胸的圍棋大師。

　　開始學(xué)習(xí)圍棋3天后，“阿爾法圍棋-零”就以100比0的成績戰(zhàn)勝了“阿爾法圍棋-李”;40天后，它又戰(zhàn)勝了在所有人類高手看來已不可企及的“阿爾法圍棋-大師”。研究人員認(rèn)為，這一進(jìn)步標(biāo)志著人工智能的巨大突破，意味著人工智能可以更好地進(jìn)入對它來說本是一片空白的領(lǐng)域。

　　根據(jù)DeepMind團(tuán)隊發(fā)表在《Nature》上的論文，最新版的AlphaGo Zero最大的突破在于實現(xiàn)了“白板理論”。白板理論認(rèn)為，嬰兒是一塊白板，可以通過后天學(xué)習(xí)和訓(xùn)練來提高智力。人工智能(AI)的先驅(qū)圖靈認(rèn)為，只要能用機(jī)器制造一個類似于小孩的AI，然后加以訓(xùn)練，就能得到一個近似成人智力，甚至超越人類智力的AI。而自學(xué)成才的AlphaGo Zero正是實現(xiàn)了這一理論。

　　Zero更厲害的一點在于，隨著訓(xùn)練的深入，它不僅棋藝獲得極大提升，而且不再受到人類認(rèn)知的局限，能夠發(fā)現(xiàn)新知識，獨立發(fā)現(xiàn)游戲規(guī)則，并且發(fā)展新策略，而這些具有創(chuàng)造性的圍棋招式，模仿并完全超越了AlphaGo在與李世石和柯潔對弈時所使用的新技巧。

　　“深度思維”公司首席執(zhí)行官哈薩比斯表示，希望人工智能的這種進(jìn)步能夠被用于分析蛋白質(zhì)結(jié)構(gòu)、設(shè)計新材料等領(lǐng)域，為人們的生活帶來積極有益的影響。

　　根據(jù)英國《衛(wèi)報》報道，AlphaGo的首席研究員大衛(wèi)·席爾瓦(David Silver)稱：“它比以前的算法更強(qiáng)大，因為它不使用任何人類數(shù)據(jù)或人類經(jīng)驗，我們已經(jīng)消除了人類知識的限制，它可以自己創(chuàng)造知識。”

* 聲明：本文由四海網(wǎng)特約會員wjianyu原創(chuàng)/整理/投稿，生活百科欄目刊載此文僅為傳遞更多信息之目的，部分文圖內(nèi)容可能未經(jīng)嚴(yán)格審查，歡迎批評指正。