登錄  
飄劍的博客
  個人資料

用戶:飄劍
網名積分:1500
實名積分:1500
博客等級:0
博客訪問:194861
關注粉絲:8
  好友
暫無好友
  正文

今天登上Science封面

天津11选5前三直 www.gfunrf.com.cn 文匯報

百家號12-0714:31

不僅會下圍棋,還自學成才橫掃國際象棋和日本將棋,史上最強棋類AI降臨!

今天,DeepMind的通用棋類算法,也是迄今最強的棋類AI——AlphaZero,經過同行評議,被頂級期刊《科學》以封面論文的形式,正式引入學界和公眾的視野。

同時,這也是經過完整同行審議的AlphaZero論文,首次公開發表。

論文描述了AlphaZero如何快速學習每個游戲,如何從隨機對弈開始訓練,在沒有先驗知識、只知道基本規則的情況下,成為史上最強大的棋類人工智能。

《科學》雜志評價稱,能夠解決多個復雜問題的單一算法,是創建通用機器學習系統,解決實際問題的重要一步。

DeepMind說,現在AlphaZero已經學會了三種不同的復雜棋類游戲,并且可能學會任何一種完美信息博弈的游戲,這“讓我們對創建通用學習系統的使命充滿信心”。

AlphaZero到底有多厲害?總結如下:

?在國際象棋中,AlphaZero訓練4小時就超越了世界冠軍程序Stockfish;

?在日本將棋中,AlphaZero訓練2小時就超越了世界冠軍程序Elmo。

?在圍棋中,AlphaZero訓練30小時就超越了與李世石對戰的AlphaGo。

一年前,DeepMind靜靜地在arXiv貼出了AlphaZero的預印版論文,當即就在圈內引發轟動:AlphaZero從零開始訓練,2小時擊敗最強將棋AI,4小時擊敗最強國際象棋AI,8小時擊敗最強圍棋AI(李世石版AlphaGo)。

現在,DeepMind將完整評估后的AlphaZero公之于眾,不僅驗證了上述結果,還補充了新的提升。

AlphaZero沒有使用人類知識(除了棋類基本規則),從零開始訓練,快速掌握日本將棋、國際象棋和圍棋這三種復雜棋類游戲,展現出令人耳目一新的獨道風格,拓展了人類智慧,并證明了機器擁有創造性的可能。

國際象棋大師卡斯帕羅夫——20年前輸給IBM深藍的國際象棋世界冠軍,今天在Science發表社論,表示他很高興看到AlphaZero展現出了像他一樣“動態、開放”的棋風:

“傳統觀點以為,機器將通過無休止的枯燥操作趨近完美,最終導致平局。但據我觀察,AlphaZero優先考慮棋子的活動而非盤面上的點數優勢,更喜歡在我看來有風險和激進的地方落子。

“計算機程序通?;岱從吵霰喑陶叩牟嘀睪推?,但由于AlphaZero通過自我對弈訓練,我認為它體現了棋的真諦(truth)。正是這種出色的理解使其能夠超越世界頂級的傳統棋類引擎,而且每秒計算的落子位置要少得多?!?/p>

AlphaZero證明了機器也能成為專家,機器生成的知識也值得人類去學習?!癆lphaZero以這樣一種強大而有用的方式超越了我們,”卡斯帕羅夫寫道:“只要在虛擬知識(virtual knowledge)能夠生成的領域,這個模型都可能復制到任何其他任務上?!?/p>

IBM深藍的共同創造者之一Murray Campbell,也在Science發表評論文章,指出DeepMind論文使用通用的搜索方法,結合蒙特卡羅樹搜索(MCTS),增強了深度強化學習。

“盡管MCTS已經成為圍棋程序中的標準搜索方法,但迄今為止,幾乎沒有證據表明它在國際象棋或將棋中有用?!盋ampbell寫道:“DeepMind展示了深度強化學習與MCTS算法相結合的力量,從隨機初始化的參數開始,讓神經網絡通過自我對弈不斷更新參數?!?/p>

AlphaZero有什么不同?

國際象棋有什么難的?

實際上,國際象棋是計算機科學家很早就開始研究的領域。1997年,深藍擊敗了人類國際象棋冠軍卡斯帕羅夫,這是一個人工智能的里程碑。此后20年,國際象棋的算法在超越人類后,一直還在不斷地進步。

這些算法都是由強大的人類棋手和程序員構建,基于手工制作的功能和精心調整的權重來評估位置,并且結合了高性能的alpha-beta搜索。

而提到游戲樹的復雜性,日本將棋比國際象棋還難。日本將棋程序,使用了類似國際象棋的算法,例如高度優化的alpha-beta搜索,以及許多有針對性的設置。

AlphaZero則完全不同,它依靠的是深度神經網絡、通用強化學習算法和通用樹搜索算法。除了基本規則之外,它對這些棋類游戲一無所知。

其中,深度神經網絡取代了手工寫就的評估函數和下法排序啟發算法,蒙特卡洛樹搜索(MCTS)算法取代了alpha-beta搜索。

AlphaZero深度神經網絡的參數,通過自我博弈的強化學習來訓練,從隨機初始化的參數開始。

隨著時間推移,系統漸漸從輸、贏以及平局里面,學會調整參數,讓自己更懂得選擇那些有利于贏下比賽的走法。

那么——

圍棋和國際象棋、將棋有什么不同?

圍棋的對弈結局只有輸贏兩種,而國際象棋和日本將棋都有平局。其中,國際象棋的最優結果被認為是平局。

此外,圍棋的落子規則相對簡單、平移不變,而國際象棋和日本將棋的規則是不對稱的,不同的棋子有不同的下法,例如士兵通常只能向前移動一步,而皇后可以四面八方無限制的移動。而且這些棋子的移動規則,還跟位置密切相關。

盡管存在這些差異,但AlphaZero與下圍棋的AlphaGo Zero使用了相同架構的卷積網絡。

AlphaGo Zero的超參數通過貝葉斯優化進行調整。而在AlphaZero中,這些超參數、算法設置和網絡架構都得到了繼承。

除了探索噪聲和學習率之外,AlphaZero沒有為不同的游戲做特別的調整。

下面就讓我們一起來看看,AlphaZero的論文作者David Silver、Thomas Hubert、Julian Schrittwieser和Demis Hassabis親自撰文,闡述他們如何用5000個TPU,讓AlphaZero快速掌握將棋、國際象棋和圍棋。

用5000個TPU,快速掌握將棋、圍棋和國際象棋

傳統國際象棋的引擎依賴于由人類高手玩家“手工制作”的數千條規則和啟發式方法,它們都試圖解釋游戲中可能發生的每一種結果。

日本將棋程序也是特定于游戲的,使用與國際象棋程序類似的搜索引擎和算法。

AlphaZero則采用了一種完全不同的方法,用深度神經網絡和通用算法取代了這些“手工制作”的規則,而這些算法對基本規則之外的游戲卻一無所知。

▲在國際象棋中,AlphaZero僅用了4個小時便首次超越了Stockfish;在日本將棋中,AlphaZero在2小時后首次超過Elmo;在圍棋方面,AlphaZero在2016年的比賽中,經過30個小時的鏖戰,首次擊敗了傳奇棋手李世石。注:每個訓練步驟代表了4096個落子位置。

為了學習每一個游戲,一個未經訓練的神經網絡通過強化學習與自己對打數百萬次。

一開始,它完全是隨機的,但是隨著時間的推移,系統從輸贏中開始學習,并根據神經網絡的參數進行調整,使其在未來可以選擇更有利的走法。

網絡需要的訓練量取決于游戲的風格和復雜性,國際象棋需要9小時,將棋需要12小時,圍棋需要13天。

“AlphaZero的一些舉動,例如將王將移至棋盤中央是有違將棋理論的,從人類的角度來看,它的這些舉動似乎是將自己置于危險境地。但令人難以置信的是,它仍然控制著局面。AlphaZero獨特的游戲風格向我們展示了將棋的新可能性?!?/span>羽生善治這樣說。羽生善治,日本將棋棋士,獲得七項頭銜的“永世稱號”,亦是日本將棋史上第一個達成七冠王與“永世七冠”的人,改寫了將棋界多項歷史紀錄。

訓練后的網絡用于指導搜索算法(蒙特卡羅樹搜索,MCTS),選擇游戲中最有有利的動作。對于每次移動,AlphaZero僅搜索傳統國際象棋引擎所考慮的一小部分位置。

例如,在國際象棋中,它每秒僅搜索6萬個位置,相比之下,Stockfish大約有6千萬個位置。

這些經過全面訓練的系統是在國際象棋(Stockfish)和將棋(Elmo)最強大的“手工引擎”以及我們之前自學的AlphaGo Zero系統(已知最強大的圍棋選手)的幫助下進行測試的。

*每個程序都在它們所設計的硬件上運行。Stockfish和Elmo使用了44個CPU核,而AlphaZero和AlphaGo Zero使用了一臺擁有4個第一代TPU和44個CPU核的機器。第一代TPU在推理速度上與NVIDIA Titan V GPU等商用硬件大致相似,但架構并不具有直接可比性。

*所有的比賽都有時間控制,每場比賽3小時,外加每一步額外的15秒。

在每次評估中,AlphaZero都毫無懸念地擊敗了對手:

*在國際象棋比賽中,AlphaZero擊敗了2016年TCEC(第九季)世界冠軍Stockfish,贏得155場比賽,在1000場比賽中只輸了6場。為了驗證AlphaZero的穩健性,我們還進行了一系列比賽,這些比賽都是從常見的“人類開局方式”開始的。在每一種開局情況下,AlphaZero都擊敗了Stockfish。我們還與最新開發版本的Stockfish以及它的變體打過比賽,在所有的比賽中,AlphaZero都贏了。

*在將棋比賽中,AlphaZero擊敗了2017年CSA世界冠軍版Elmo,贏得了91.2%的比賽。

*在圍棋比賽中,AlphaZero擊敗了AlphaGo Zero,贏得了61%的比賽。

獨創棋風,拓展人類智慧,邁向通用學習系統重要一步

然而,讓人感到最著迷的是AlphaZero的行棋風格。例如,在國際象棋中,AlphaZero在自我訓練中獨立發現并走出了人類棋手常用的定式,如開局、王不立險地(King safety)和兵的走法。

但是,由于這些都是自學的,因此不會受傳統觀念的影響,AlphaZero還開創出了自己的直覺和策略,產生了一系列令人興奮的新穎思路,為幾個世紀以來國際象棋戰略戰術的思考提供了有益的補充。

過去一個多世紀以來,國際象棋一直被用作衡量人類和機器認知水平的黃金標準。 AlphaZero取得的非凡成果,刷新了這門古老的棋盤游戲和尖端科學之間的顯著聯系。前國際象棋世界冠軍加里·卡斯帕羅夫如是說。

在與AlphaZero對弈時,棋手注意到的第一件事就是它的行棋風格,國際象棋大師Matthew Sadler說道,“它會懷著明確的目的和力量來瓦解對手的王”。Sadler和女子國際象棋大師Natasha Regan一起分析AlphaZero,并寫作出版了專著《Game Changer:AlphaZero的顛覆性國際象棋策略和人工智能潛力》。

AlphaZero的行棋風格非常靈活,最大限度地提升己方子力配備的靈活性和機動性,同時最大限度地降低對手子力的靈活性和機動性。

與我們的通常想法不同的是,AlphaZero似乎對“子力”本身的重視程度較低,而重視“子力”是現代國際象棋的基本行棋思路,棋盤上每個子都具有價值,如果一個玩家在棋盤上的子力高于對手,那么他就擁有子力優勢。而AlphaZero甚至愿意在棋局早期犧牲子力,以獲得長期收益。

“令人印象深刻的是,AlphaZero在行棋時能將這種風格應用在各種各樣的開局和定式中?!盡atthew說道,他也觀察到,AlphaZero從走第一步開始就體現出了這種明確的的性,且一以貫之,其風格體現得非常明顯。

“過去的傳統國際象棋軟件已經非常穩定,幾乎不會出現明顯錯誤,但在面對沒有具體和可計算解決方案的時,其行棋會發生偏差,”他說:“正是在這種時候,才是AlphaZero發揮其'感覺'、'洞察'或'直覺'的地方?!?/p>

這種獨特的能力,在其他傳統的國際象棋引擎中是看不到的。目前,AlphaZero已經被用來在世界國際象棋錦標賽上為棋迷們提供有關Magnus Carlsen和Fabiano Caruana(現男子國際象棋等級分前兩名)對局的新見解和評論。

“我們可以看看AlphaZero的分析,與頂級國際象棋大師對棋局的分析,甚至和棋手實戰著法有何不同,這真是令人著迷的一件事。AlphaZero可以作為整個國際象棋社區的強大教學工具?!?/p>

AlphaZero的“教誨”,讓我們想起了2016年AlphaGo與圍棋世界冠軍李世乭對弈時的場景。在那次比賽中,AlphaGo走出了許多極具創造性的致勝著法,包括在第2局比賽中的執黑第37手,這手棋推翻了人類數百年的思路。這些著法已經被包括李世乭本人在內的所有級別的棋手和愛好者研究過。

他們對此表示:“我之前還認為AlphaGo是基于概率來計算的,它只是一臺機器。但當我看到這手棋時,我改變了想法。毫無疑問,AlphaGo是有創造性的。

“人機大戰”的影響力已經遠遠超出了國際象棋本身。這些自學成才的專家級機器不僅表現優異,棋力非凡,而且從自己創造的新知識中學習。前國際象棋世界冠軍加里·卡斯帕羅夫說。

和圍棋一樣,我們對AlphaZero在國際象棋上的創造性突破感到興奮,自從計算機時代以來,人工智能時時面臨著巨大挑戰,包括巴貝奇、圖靈、馮·諾依曼在內的早期計算機先驅人物,都曾試圖設計國際象棋程序,但AlphaZero的用途不僅僅是國際象棋、將棋和圍棋。

為了創建能夠解決各種現實問題的智能系統,它們需要更加靈活,能夠適應新情況。雖然目前在實現這一目標方面取得了一些進展,但AI的通用化問題仍然是研究中的一項重大挑戰,經過訓練的AI系統面對特定任務時能夠以極高標準完成,但任務只要稍有變化往往就會失敗。

AlphaZero掌握了三種不同的復雜游戲,這可能是朝著解決這一問題邁出的重要一步。盡管目前還處于早期階段,但AlphaZero取得的進步,以及在蛋白質折疊系統AlphaFold等其他項目上的令人鼓舞的結果,讓我們對實現通用學習系統的使命充滿信心,相信未來我們能夠找到一些新的解決方案,解決最重要、最復雜的科學問題。

編輯:顧軍

責任編輯:樊麗萍

來源:綜合自新智元、量子位微信號

閱讀(2294) | 評論(0) | 轉載(0) | 舉報
評論
暫無評論
天津11选5前三直
我要評論:

匿名評論  


大師網博客 | 注冊須知
電話:13603119508  電子郵箱:[email protected]    © 2006,版權所有(象棋大師網)    冀ICP備06022471