AlphaGo究竟帶給人類什麼?李開復說....

AlphaGo與李世石的人機對弈,炒熱這波人工智慧熱潮。(美聯社)

相對於大部分投資人,李開復對AI有種特殊的情結。

在這一波的人工智能創業浪潮中,李開復扮演的角色,近乎於搖旗吶喊的行業代言人,希望吸引更多創業者投身其中。

在卡內基梅隆大學攻讀計算機學博士期間,他的研究領域也與AI相關。任職微軟時期,李開復在自然交互式軟件及服務部門,研究語音、自然語言、搜索等前沿技術。

畢業20年多年後,他邀請母校卡耐基梅隆大學AI撲克Libratus發明者Tuomas Sandholm,攜撲克AI「冷撲大師」與中國德撲高手展開較量。這場賽事在4月6日至4月10日期間舉辦。「冷撲大師」士氣正盛,今年1月,它剛取得了匹茲堡一場人機撲克對戰的勝利。

另外,李開復和創新工場AI工程院副院長王詠剛合著的新書《人工智能》,已開始預售。他們如何看待人工智能與人類棋牌大師的較量?

36氪獨家獲取了書中關於圍棋及德撲人機大戰內容的節選:

棋牌人機大戰:人工智能挑戰人類智力

AlphaGo帶給人類的啟示

2016年3月,新浪體育等媒體現場直播了李世石與AlphaGo的第五盤棋賽。絕大多數圍棋界人士和人工智能界的科研人員都沒想到,圍棋程序會在如此短的時間內取得質的突破--計算機在兩年內做到了可能需要20年才能做到的事,這樣的速度真的讓人震撼。

AlphaGo橫空出世之前,圍棋界的觀點也大致相同。因為國際象棋與圍棋的複雜度相差甚遠,1997年IBM深藍在國際象棋棋盤上戰勝人類棋王的故事並不足以讓圍棋高手信服。而且,這麼多年來,圍棋AI程序的研發一直舉步維艱。早期基於規則的圍棋程序,比如中山大學陳志行教授1990年代研發的「手談」,基本上只能和圍棋初學者過招。

直到2006年後,隨著蒙特卡洛搜索算法在圍棋對弈軟件中的應用,MoGo、Zen、CrazyStone等程序的棋力才得到了突飛猛進的提高,在國際對弈平台KGS上,2006到2012年間,主流圍棋對弈軟件的棋力從業餘2級猛升到業餘5段甚至業餘6段,但也就此停滯不前。

AlphaGo出現前,圍棋界專家對圍棋對弈軟件棋力的評估基本比較一致,大多認為最好的計算機程序已可以和業餘高手過招,但和職業選手之間,還是有著本質的差別。

在今天的圍棋界,業餘高手和職業高手之間存在2子以上的明顯差距,通常,這個差距是職業選手從童年開始,用10年以上的時間刻苦訓練得來的,業餘選手極難彌補。

另一方面,在計算機科學界,懂得蒙特卡洛搜索算法原理的人都知道,這種算法主要是利用抽樣統計來提高搜索效率,單用此算法確實難有提高空間。這是AlphaGo出現前,圍棋界和計算機科學界兩方面都不敢奢望人機大戰即將到來的根本原因。

是深度學習改變了一切。使用深度學習並結合蒙特卡洛搜索的AlphaGo已註定被寫入歷史。AlphaGo問世的第一年內,其實進入大家視野的是三個版本:5:0擊敗樊麾的內測版本,4:1擊敗李世石的版本,以「Master(大師)」網名60:0快棋挑落中日韓高手的版本。

三個版本演進脈絡明顯,每次迭代都有重大升級。最後這個網名為「Master(大師)」的版本也基本是2017年AlphaGo挑戰柯潔的一個「預覽版」。

從圍棋角度說,AlphaGo最震撼的是計算機在人類傳統認為極其玄妙的、電腦無法掌握的「大局觀」上突飛猛進,遠遠將人類選手甩在身後。電腦計算「大局觀」的方式,和人類培養「大局觀」的思路,有根本的差別。人類沒可能在這方面趕上電腦。和樊麾對局的棋譜基本上還看不出AlphaGo的大局觀有多強,和李世石對局就下出了聶衛平贊不絕口的五路肩衝,到了Master的60局,大局觀體現在兩個地方:

第一,從始至終對局勢的把握,比如第60局古力用AlphaGo的思路對付AlphaGo,把中央撐得很滿,但AlphaGo不緊不慢,總是恰到好處地保持勝勢。第二,AlphaGo已經深刻影響人類對佈局的思考,大飛守角之類的變化迅速被人類棋手模仿,這和當年深藍問世後,國際象棋的佈局革命是一樣的。

基於AlphaGo的思路,其他圍棋軟件的水平也突飛猛進。僅2017年初就有日本研發的DeepZenGo和騰訊人工智能實驗室開發的「絕藝」達到了人類九段或以上的水平。騰訊「絕藝」不僅面對人類高手保持了絕對優勢,還戰勝了AlphaGo以外的各路圍棋軟件,取得了2017年UEC杯計算機圍棋大賽的冠軍。

以後AI和AI之間的競賽,應該會不斷促進AI提高。人類雖望塵莫及,但可以不斷從AI中學習新的思想。

從人工智能技術的角度說,AlphaGo用的是AI領域應用非常普遍的算法:深度學習、蒙特卡洛算法、增強學習等。可以說,機器視覺相關的深度學習技術,包含環境-決策-反饋的智能係統,裡面都有AlphaGo的影子。當然,直接的代碼實現層面,肯定沒有復制、粘貼這樣直接借用的關係,因為AlphaGo的深度學習模型畢竟是圍繞圍棋的特徵建立的。

那麼,當人機大戰煙塵散盡,當公眾的熱情回歸理性,AlphaGo究竟為我們人類帶來了什麼?AlphaGo帶來的,僅僅是棋盤上的一張張棋譜,還是公眾對人工智能的重新認知,或是人類與機器命運的關鍵轉折點?

其實,AlphaGo帶給人類的,更多是一種對未來的警示:如果計算機可以在兩年內實現大多數人此前預測要花20年或更長時間才能完成的進步,那麼,還有哪些突破會以遠超常人預期的速度來臨?這些突破會不會超出我們對人工智能的想像,顛覆人類預想中的未來?我們已為這些即將到來的技術突破做好準備了嗎?

無論是專業人士還是普通公眾,AlphaGo的出現給每個人提供了一個最好的理由,讓我們有機會重新思考:到底什麼是人工智能?人工智能之於人類的意義是什麼?人工智能與未來人類的關係到底會怎樣?人工智能真的會在未來挑戰人類嗎?

德州撲克:開啟新世界的大門

圍棋是一項講究計算和形勢判斷能力的遊戲。而德州撲克就非常不同,講究的是在多人博弈中,避免人性貪婪、戀棧等弱點,並將科學的概率統計與靈活的實戰策略很好地配合起來。人工智能已經在圍棋領域取得歷史性的突破,那麼,在德州撲克的世界裡,人工智能的表現又如何呢?

在圍棋、象棋等遊戲中,人工智能可以和人類選手一樣,在每一步決策前獲得棋盤上的全部信息。這種限定規則,隨時可以獲取全部信息的遊戲,我們可以稱之為「完整信息的博弈遊戲」。而在德州撲克中,人工智能和人類選手通常無法在特定時刻獲得有關遊戲的全部信息。比如,在德州撲克中,你無法知道對手的底牌是什麼,你也不知道發牌員發出的下一張牌是什麼,在這類「不完整信息的博弈遊戲」裡,人工智能必須像人一樣,根據經驗或概率統計知識,猜測對手底牌和下一張牌的可能性,然後再製定自己的應對策略。

顯然,對於實現人工智能算法而言,不完整信息的博弈遊戲在技術難度上要大得多。卡內基梅隆大學的研究者就選擇了德州撲克作為他們攻克此類問題的出發點。

來自卡內基梅隆大學的托馬斯·桑德霍姆(Tuomas Sandholm)教授與他的博士生諾姆·布朗(Noam Brown)最早開發了一款名為Claudico的德州撲克程序。

Claudico是一個拉丁文單詞,對應於德州撲克中的一種特別的策略——平跟(limping),指的是翻牌之前,選擇跟大盲注而不加註的策略。平跟這種策略,在人類德州撲克比賽中,使用的頻率並不是很高,但據托馬斯·桑德霍姆介紹,計算機通過學習發現,使用這種策略有許多好處。值得注意的是,托馬斯·桑德霍姆的團隊在研發德州撲克程序時,主要不是向人類職業選手學習打牌技巧,而是讓計算機通過自我訓練,自己尋找最好的方法。

Claudico從2015年4月到5月,在匹茲堡的河流賭場與人類選手同台競技,在無限制投注的一對一比賽中,輪流與包括當時世界排名第一的道格·波爾克(Doug Polk)在內的四名人類頂尖高手過招。那次比賽歷時13天,共計2萬局牌。為降低運氣成分,比賽使用的是重複牌局的玩法,即在不同房間的兩張牌桌上使用完全相同、但人機對調的兩副牌。這次比賽,AI似乎還很稚嫩。比賽進行過半,人類就領先Claudico大約46萬個籌碼。最終,人類選手以大約73萬個籌碼的優勢贏得了比賽。

Claudico在2015年初出茅廬的這次比賽以失利告終。這個劇情,有些像1996年IBM深藍輸給卡斯帕羅夫的那一次。與Claudico交過手的道格·波爾克說,Claudico與人類的打牌方式非常不同,「人類選手的下注數量可能是彩池的一半或四分之三,而Claudico有時只吝嗇地以彩池的十分之一來下注,有時則以彩池的十餘倍來下注。人類可不會用19000美元的下注去博取區區700美元的彩池。」

2015年的失利並沒有讓托馬斯·桑德霍姆教授灰心。2017年1月,教授帶著一個名為Libratus的新版本德州撲克程序捲土重來,再戰匹茲堡的河流賭場。像上次一樣,新版本程序的名字Libratus也是一個拉丁文單詞,對應於程序使用的均衡(balanced)策略——這一策略源自數學家納什定義的一種完美博弈的模型。

托馬斯·桑德霍姆教授解釋說,「在存在兩名玩家的零和遊戲中,如果有一人不遵從納什均衡的策略,那麼兩名玩家獲得的收益都將受損,但我們的系統不會這樣。在此類游戲中,以納什均衡的方式思考是最安全的。遵從規律的玩家將合理地獲得受益,同時在任何地方都不會被對手利用。」

這一次,比賽規則和2015年那次基本一致,比賽時間從13天延長到20天,仍基於無限制投注的規則,Libratus輪流與人類高手一對一比賽。人類團隊計算總分,與Libratus的總得分比較勝負關係。不同的是,升級後的Libratus程序就像圍棋棋盤上威風八面的AlphaGo一樣,一上來就對四名人類高手形成了全面壓制。AI從比賽第一天就一路領先,第6天領先優勢雖一度縮小,但從第7天后,人類就再也沒有機會彌補巨大的差距了。最終,Libratus領先的籌碼數量達到驚人的176.6萬美元!在德州撲克領域的人機大戰中,人工智能完美勝出!

連續參加了2015年和2017年兩次人機大戰的人類德州撲克高手Dong Kim說,他在這次比賽全程充滿挫敗感——其實他已經是四位人類高手裡面,對戰成績最好的那個了。兩年前曾經擊敗計算機的Dong Kim在2017年的比賽剛剛過半時就直言:「人類已經沒有真正獲勝的機會。」

那麼,從Libratus大敗人類高手的德州撲克對局中,我們能看到哪些人工智能的發展規律呢?

Libratus所使用的技術策略非常成功。AI利用增強學習技術,從自我對局中學習最優的撲克玩法,而避免從人類的既定模式中學習經驗,這是非常重要的一點。當然,目前Libratus的算法還只適用於無限制投注的一對一比賽。如果將比賽擴展到更常見的多人制比賽,Libratus面對的挑戰會更大一些,還需要進行策略上的升級與調整。

計算機在德州撲克領域取得的成功,令人工智能研究者都非常振奮,這主要是因為以下兩個原因:

和圍棋不同,在德州撲克的牌桌上,人工智能與人類選手一樣,都只能看到部分信息。這種情況下,沒有所謂的唯一的、最佳的打法。Libratus基本是從零開始學習德州撲克策略,且主要依靠自我對局來學習。這對利用人工智能解決更為廣泛的現實問題意義重大。

那些擔心人工智能威脅的悲觀主義者可能會從Libratus的勝利中看到更為現實的風險。比如,機器曾在比賽中用大賭注和新策略嚇退、矇騙過最精明的人類牌手,這些方法也許會被精明的商人用於人類的商業談判。一旦這些人工智能算法被犯罪組織利用,是否會出現災難性的後果?擔心出現超人工智能的人還會進一步追問,一旦機器有了自我意識,機器是否會像德州撲克牌桌上的AI算法一樣,用各種策略誘騙、恐嚇人類呢?

樂觀主義者則更多地看到Libratus的算法本身對於人工智能幫助人類解決實際問題的巨大價值。如果機器能夠在自我學習中不斷完善對於一種特定策略的掌握程度,能夠在不熟悉或缺乏全部信息的環境中不斷試錯並積累經驗,那麼,機器顯然可以勝任更多的人類工作。

比如,機器可以幫助人類製定更為複雜的醫療計劃,可以在人類感到難以決策的領域,比如商業​​活動、城市規劃、經濟調控甚至戰爭指揮等,充當人類的「參謀」。也許,未來每個人都可以依靠強大的計算機和人工智能程序,成為運籌帷幄、決勝千里的戰略家。

文章來源:李開復臉書

◆作者目前為創新工場董事長&CEO,曾在Google、微軟、蘋果等跨國科技企業擔任要職。

◆本文純屬作者個人看法,不代表本報立場。

(中時電子報)


推薦閱讀

發表意見
留言規則
中時電子報對留言系統使用者發布的文字、圖片或檔案保有片面修改或移除的權利。當使用者使用本網站留言服務時,表示已詳細閱讀並完全了解,且同意配合下述規定:
  • 請勿重覆刊登一樣的文章,或大意內容相同、類似的文章
  • 請不要刊登與主題無相關之內容
  • 發言涉及攻擊、侮辱、影射或其他有違社會善良風俗、社會正義、國家安全、政府法令之內容,本網站將會直接移除
  • 請勿以發文、回文等方式,進行商業廣告、騷擾網友等行為,或是為特定網站、blog宣傳,一經發現,將會限制您的發言權限或者封鎖帳號
  • 為避免留言系統變成發洩區和口水版,請勿轉貼新聞性文章、報導或相關連結
  • 請勿提供軟體註冊碼等違反智慧財產權之資訊
  • 禁止發表涉及他人隱私、含有個人對公眾人物之私評,且未經證實、未註明消息來源的網路八卦、不實謠言等
  • 請確認發表或回覆的內容(圖片)未侵害到他人的著作權、商標、專利等權利;若因發表或回覆內容而產生的版權法律責任將由使用者自行承擔,不代表中時電子報的立場,請遵守相關法律規範
違反上述規定者,中時電子報有權刪除留言,或者直接封鎖帳號!請使用者在發言前,務必先閱讀留言板規則,謝謝配合。