阿爾法狗再進(jìn)化 阿爾法元碾壓老狗人工智能再引恐慌
阿爾法狗再進(jìn)化 阿爾法元碾壓老狗人工智能再引恐慌
四海網(wǎng):年谷歌研發(fā)的人工智能圍棋阿爾法狗大戰(zhàn)柯潔,以3:0取得壓倒性勝利,在圍棋界取得世界第一的段位,就在人們認(rèn)為這條人工智能狗已經(jīng)成神一樣不可戰(zhàn)勝后,谷歌團(tuán)隊研發(fā)出升級版阿法爾元,以100:0吊打阿爾法狗,引發(fā)網(wǎng)友們對人工智能的恐慌,人工智能真的會代替不完美的人類嗎?
美國當(dāng)?shù)貢r間10月18日,谷歌人工智能團(tuán)隊DeepMind團(tuán)隊在期刊《Nature》上發(fā)表論文,宣布一款新版的AlphaGo Zero計算機(jī)程序可以在不需要任何人類輸入的條件下,迅速自學(xué)圍棋,并以100比0的戰(zhàn)績擊敗上一代AlphaGo。這是AI歷史上又一里程碑式的重大消息。
新版“阿爾法圍棋”從零開始 四十天成王者
谷歌旗下的人工智能“阿爾法圍棋”在幾次世界矚目的人機(jī)大戰(zhàn)后站在了圍棋之巔——2016年,谷歌旗下的DeepMind團(tuán)隊發(fā)布AlphaGo,并以4:1的戰(zhàn)績擊敗了世界圍棋冠軍、韓國棋手李世石,震撼世界。此后,AlphaGo又進(jìn)化出了AlphaGo Master版本,并以3:0戰(zhàn)勝了當(dāng)今世界圍棋第一人、中國棋手柯潔。功成名就后,DeepMind團(tuán)隊宣布AlphaGo退役。
現(xiàn)在它又以一種新的方式超越了自己:閉關(guān)一年后,DeepMind推出了最新版本的AlphaGo Zero,它在沒有任何人類指導(dǎo)的情況下,“從零開始”學(xué)習(xí)圍棋,僅用3天時間自學(xué)和訓(xùn)練,就擊敗了此前的AlphaGo,比分是100比0。值得注意的是,之前的版本都參考學(xué)習(xí)了大量人類專業(yè)棋手的圍棋經(jīng)驗,而新版的AlphaGo Zero則是自我對弈,即通過跟不同版本的自己下棋來學(xué)習(xí)。
英國“深度思維”公司開發(fā)出了“阿爾法圍棋”,該公司團(tuán)隊在新一期英國《自然》雜志上發(fā)表論文,介紹了最新版的“阿爾法圍棋-零”。 該公司之前開發(fā)的電腦在開始學(xué)習(xí)圍棋時,舊版Alpha Go需要先學(xué)習(xí)數(shù)百萬份人類棋譜,還要經(jīng)過幾個月的密集訓(xùn)練,從而進(jìn)行自我訓(xùn)練,實現(xiàn)超越。
第四個版本,即最新的“阿爾法圍棋-零”擺脫了這個限制,完全“從零開始”,自己與自己對弈,通過更為優(yōu)秀的算法,取得飛速進(jìn)步。
Zero的學(xué)習(xí)原理是這樣的:研究團(tuán)隊事先沒有給Zero學(xué)習(xí)任何人類棋譜,只告訴它圍棋的規(guī)則,就讓它自己在棋盤上下棋,與自己進(jìn)行對弈,從一次次試驗和失敗中吸取經(jīng)驗教訓(xùn),摸索規(guī)律,在實戰(zhàn)中提高棋藝。
除了學(xué)習(xí)原理外,另一點與“舊狗”不同的是,Zero使用了單一的神經(jīng)網(wǎng)絡(luò)。
此前版本的AlphaGo都是用了兩種神經(jīng)網(wǎng)絡(luò),一種用來預(yù)測下一步棋最好的走法,另一種用來計算,根據(jù)這些走法,誰更有可能獲勝。
而Zero把這兩種網(wǎng)絡(luò)合二為一,只讓神經(jīng)網(wǎng)絡(luò)預(yù)測獲勝者,從而能夠得到更高效的訓(xùn)練和評估,就好像讓一個圍棋高手來預(yù)測比賽結(jié)果一樣。
此外,Zero也不再使用快速而隨機(jī)的走子方法。“舊狗”會通過快速走子來預(yù)測哪個棋手會從當(dāng)前局面中獲勝,而Zero則通過高質(zhì)量的神經(jīng)網(wǎng)絡(luò)來評估棋局。
如此看來,“舊狗”像是走一步看三步、步步為營的棋手,而Zero更像是縱觀全局、成竹在胸的圍棋大師。
開始學(xué)習(xí)圍棋3天后,“阿爾法圍棋-零”就以100比0的成績戰(zhàn)勝了“阿爾法圍棋-李”;40天后,它又戰(zhàn)勝了在所有人類高手看來已不可企及的“阿爾法圍棋-大師”。研究人員認(rèn)為,這一進(jìn)步標(biāo)志著人工智能的巨大突破,意味著人工智能可以更好地進(jìn)入對它來說本是一片空白的領(lǐng)域。
根據(jù)DeepMind團(tuán)隊發(fā)表在《Nature》上的論文,最新版的AlphaGo Zero最大的突破在于實現(xiàn)了“白板理論”。白板理論認(rèn)為,嬰兒是一塊白板,可以通過后天學(xué)習(xí)和訓(xùn)練來提高智力。人工智能(AI)的先驅(qū)圖靈認(rèn)為,只要能用機(jī)器制造一個類似于小孩的AI,然后加以訓(xùn)練,就能得到一個近似成人智力,甚至超越人類智力的AI。而自學(xué)成才的AlphaGo Zero正是實現(xiàn)了這一理論。
Zero更厲害的一點在于,隨著訓(xùn)練的深入,它不僅棋藝獲得極大提升,而且不再受到人類認(rèn)知的局限,能夠發(fā)現(xiàn)新知識,獨立發(fā)現(xiàn)游戲規(guī)則,并且發(fā)展新策略,而這些具有創(chuàng)造性的圍棋招式,模仿并完全超越了AlphaGo在與李世石和柯潔對弈時所使用的新技巧。
“深度思維”公司首席執(zhí)行官哈薩比斯表示,希望人工智能的這種進(jìn)步能夠被用于分析蛋白質(zhì)結(jié)構(gòu)、設(shè)計新材料等領(lǐng)域,為人們的生活帶來積極有益的影響。
根據(jù)英國《衛(wèi)報》報道,AlphaGo的首席研究員大衛(wèi)·席爾瓦(David Silver)稱:“它比以前的算法更強(qiáng)大,因為它不使用任何人類數(shù)據(jù)或人類經(jīng)驗,我們已經(jīng)消除了人類知識的限制,它可以自己創(chuàng)造知識。”