繼 AlphaFold 大火之後,DeepMind 又一款演算法躥紅。
12 月 23 日,DeepMind 在官網發表博文 MuZero: Mastering Go, chess, shogi and Atari without rules,並詳細介紹了這款名為 MuZero 的 AI 演算法。
如果說 AlphaGo 是一代 “爺爺”,那麼 AlphaGo Zero 就是二代 “爸爸”,AlphaZero 則是三代 “孫兒”,MuZero 就是四代 “重孫”。其中,出生最晚的 “重孫” MuZero 最厲害。
圖 | “四代同堂”
“爺爺” AlphaGo 提供了人類知識(Human Knowledge)和規則(Rules),因因此可訓練出一個大的策略樹,來完成搜尋、以及幫助做出決策;“爸爸” AlphaGo Zero 去掉了人類知識部分,而是隻給 AI 提供規則,然後透過自我博弈,就能學習出自己的策略;“孫兒” AlphaZero 則可透過完全資訊,利用泛化能力更強的強化學習演算法來做訓練,並學會不同的遊戲,如圍棋、國際象棋和日本將棋。“重孫” MuZero 則是前級階段的升級版,即在沒有人類知識以及規則的情況下,,它能透過分析環境和未知條件(Unknown Dynamics),來進行不同遊戲的博弈。不過,MuZero 並非首次露面,它誕生於 2019 年 11 月,當時 DeepMind 在預印本平臺 arXiv 發表了論文 “Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model”。
今年 12 月 23 日,Nature 於一年後收錄了該論文,這也是 MuZero 此次走紅的原因。
圖 | Nature 收錄 MuZero 的論文
論文的主要思路在於,人類智慧之所以高階,表現之一在於有預測能力,比如看到月朗星稀,即可推斷明天大機率是晴天。在重複性計算方面,機器已經非常擅長,但一直缺乏預測能力。此前,DeepMind 曾提出了前向搜尋和基於模型的規劃演算法兩種方案。
就前向搜尋方案來說,二代 AlphaZero 已使用過該方案,它在理解遊戲規則的前提下,可透過自我模擬和覆盤,去制定下棋時的最佳策略。但在遊戲規則未知的情況下,前向搜尋方案就會 “失靈”。
就基於模型的規劃演算法方案來說,它能在學習環境動態後,進行精準建模即環境建模,然後制定出最佳策略。但是,環境建模比較複雜,無法讓機器良好把握 Atari 遊戲。
這意味著,上述兩種方案都不是最佳選,因此 MuZero 放棄對環境中所有要素進行建模的方法,而是針對三個最重要的要素進行建模:即價值(The value)、策略(The policy)和獎勵(The reward)。
僅需兩到三週,就能完成對一款 Atari 遊戲的訓練談及建模過程,論文共同作者、DeepMind 演算法工程師 Julian Schrittwieser 告訴媒體:“MuZero 前期的訓練過程需要大量算力,但在訓練結束後,它僅需很少的算力就能做出決策,這甚至能在一部智慧手機上完成。而前期的訓練過程所需的算力其實也並不是什麼天文數字,單塊 GPU 僅需兩到三週就能完成 MuZero 針對一個 Atari 遊戲的訓練。
具體建模時,MuZero 從下面動圖的頂部開始,使用表徵功能 H將當前狀況、對映到神經網路中的嵌入層(S0),然後使用動態函式(G)和預測函式(F),來推測接接下來的動作序列(A)。
圖 | 基於蒙特卡洛樹狀搜尋和 MuZero 神經網路進行規劃
只知道下一步怎麼做還不夠,還得判斷做得好不好,為此 MuZero 可以跟環境互動,進而模擬出對手的下一步走向。
圖 | MuZero 透過模擬下棋走向訓練神經網路
每一步棋的走法,都會被累加為棋局最後的獎勵。如下圖,每當策略函式 P 獲得一次預測走法,價值函式 V 就會得到一次獎勵。
圖 | 預測走法帶來獎勵
憑藉該策略,在圍棋、國際象棋和日本將棋中,MuZero 在多訓練步驟的情況下,達到甚至超過了前輩 AlphaZero 的水平。下圖分別為 MuZero 在國際象棋、日本將棋、圍棋和 Atari 遊戲訓練中的評估結果,橫座標代表著訓練步驟數量,縱座標表示 Elo 評分(Elo,一個衡量各類對弈活動水平的評價方法)。
圖 | 在國際象棋、日本將棋、圍棋和 Atari 遊戲上的評估結果
其中,藍色線代指 MuZero 的表現,黃色線代表三代 AlphaZero 的表現,可以看出在圍棋和 Atari 遊戲中,MuZero 的表現比上一代更佳。
此外,為驗證 MuZero 的精確規劃能力,DeepMind 讓其嘗試學習了圍棋高精度規劃能力,也就是下完一步棋就能判斷勝負。
如下圖右側,在 Ms Pac-Man 遊戲的測試中,訓練時間越長、MuZero 就更強大,當下一步棋的判斷時間從 0.1 秒增加到 50 秒,Elo 指標就能增加 1000,這相當於從業餘棋手跳躍到最強職業棋手的水平。
圖 | 左:步驟判斷時間和圍棋 Elo 指標之間的關係;右:訓練時長和訓練效果的關係
李博認為:“這種利用強化學習進行端到端訓練的方法,是 AI 的重點之一,對於強化學習來說,其本質之一是要設計合適的獎勵(Reward Function),並且可以考慮到不確定環境條件從而提高演算法的泛化能力。”
而另一位不願具名的計算機教授表示,DeepMind 攻克的第一個遊戲就是 Atari,因為 Atari 是基準線,能測出演算法到底是否管用。傳統的強化學習,學習的是 Agent (智慧體),而 MuZero 對下棋規則(Environment )也做了建模, 與此同時它還能學會規則,這就是它的最大創新。但從機器學習角度來看,無非就是搜尋空間變得更大,所以計算量會大大增加,理論上仍舊是強化學習。
Muzero 有望成為廣泛使用的強化學習演算法對於其進步,重慶大學汽車工程學院副教授王科評價稱:“Muzero 是目前強化學習領域裡程碑式的工作。人類世界中的規則隨時在變化,那麼顯然 Muzero 相比二代 AlphaZero 具有更好的生存能力。可以看到的是,Muzero 有潛力成為廣泛使用的強化學習演算法。”
對於它的應用前景,另一位論文共同作者、DeepMind 演算法工程師 Thomas Hubert 告訴媒體說:“目前,我們正在嘗試將 MuZero 用於最佳化影片壓縮。”
除最佳化影片壓縮之外,MuZero 的潛在應用還包括自動駕駛技術和醫藥生物研究領域裡的蛋白質設計,比如設計一款基於蛋白質的作用於特定病毒、或細胞表面受體的藥物。
王科向 DeepTech 重點展望了 MuZero 可能在自動駕駛領域的應用:“Muzero 作為 DeepMind 最新 AI 演算法,具備了一定的類人成長和學習能力。”他以自動駕駛汽車舉例稱,目前的自動駕駛汽車離實現 L5 級完全無人駕駛還很遠,還都需要在 ODD(Operational Design Domain)即執行設計域中執行,其原因是當前自動駕駛汽車技術無法應對未知開放環境帶來的挑戰,相信 MuZero 強大的學習能力和規劃能力,能在一定程度上推動包括自動駕駛汽車在內的很多領域的進步。”