登錄  
飄劍的博客
  個人資料

用戶:飄劍
網名積分:1500
實名積分:1500
博客等級:0
博客訪問:190495
關注粉絲:8
  好友
暫無好友
  正文

Deepmind又發AI新論文了,這次的目標是國際象棋和日本將棋!

上次Deepmind讓AlphaGo Zero在圍棋上從零開始學習,短時間就訓練成功棋力驚人。但是圍棋規則是很簡單的,Deepmind這次把這個技術用到了國際像棋和日本將棋這兩種規則很復雜的棋類上。結果證明,從零開始學習對于復雜規則的棋類也是通用的,而且比圍棋花更少的時間就能訓練成功。

Chess就是國際象棋,Shogi是日本將棋,都和中國象棋有些類似,兵種很多,每個兵種有各自的行棋規則。從規則復雜度來說,比圍棋繁瑣多了。但是從搜索 狀態空間看,比圍棋又少多了,國際象棋是10^46次方,圍棋是10^171。

國際象棋AI之前就已經遠遠高于人類棋手的實力了,實力最強最有名的程序之一是Stockfish。新的程序是AlphaZero注意不是AlphaGo Zero, Go是圍棋的英文名)。下面是AlphaZero的具體戰績。

可以看出,Stockfish無論先走后走,都勝不了AlphaZero。雖然100局里和了72局,但是通常國際象棋頂級AI大戰100局90局會和掉。AlphaZero勝了28局,而且一局沒輸,實力應該是比Stockfish強不少。和這么多,主要是國際象棋容易和棋,非??贍芰礁鏨系巰戮褪嗆途?。

AlphaZero對日本將棋程序Elmo的優勢更大,100局是90勝2和8負。但是也輸過,這個特點有些異常。AlphaZero訓練一天,就能比之前訓練三天的20 blocks的AlphaGo Zero強,100局是60勝40負,但這個進展并不是太讓人吃驚,應該只是訓練速度快了,棋力增強到沒有多少,更強的是訓練40天的40 blocks的AlphaGo Zero。

這是訓練花的時間,4個小時后(對應300K的訓練步數),AlphaZero就戰勝了Stockfish。2小時后(對應110K的訓練步數),AlphaZero就戰勝了Elmo。訓練8小時戰勝AlphaGo Lee,24小時超過AlphaGo Zero。

當然訓練花的時間長短,和訓練時用的機器有關。AlphaZero用了5000個TPU(相當于5萬個GPU)用于生成對局,這是非常驚人的數字,一般公司肯定搞不了。如果只有10個GPU,那可能要2年才能自學習訓練出一個國際象棋程序。

以前人們用”人工編程加專家知識“的辦法,已經打敗了人類棋類高手。如國際象棋、日本將棋,都是人寫了很多代碼的,也需要專業棋手來幫忙,有時還有好幾個G的開局庫,研發時間也很長。而且這種“人工編程加專家知識”的辦法,還解決不了圍棋。

Deepmind用機器學習的辦法,在圍棋上取得了突破。這篇文章回頭證明,用機器學習的辦法,可以用更簡單的辦法解決其它棋類。編程任務很簡單,訓練起來也很快,這個開發思想完全是革命性的。當然它需要很多GPU硬件,只有大公司能搞。

國際象棋在世界上的影響比圍棋要大不少,更為普及。Stockfish也是國際象棋愛好者最喜歡的AI。這次Stockfish這么容易就被打敗了,對國際象棋界也會有不小的沖擊。許多國際象棋AI開發者要想新的辦法開發了。


閱讀(6607) | 評論(0) | 轉載(0) | 舉報
評論
暫無評論
天津11选5前三直
我要評論:

匿名評論  


大師網博客 | 注冊須知
電話:13603119508  電子郵箱:[email protected]    © 2006,版權所有(象棋大師網)    冀ICP備06022471