怕啥來啥！DM最新全能AI：完全自學規則，表現碾壓人類

首頁>科技>草民觀點2020-12-24 21:19

怕啥來啥！DM最新全能AI：完全自學規則，表現碾壓人類

開發出人工通用智慧，一直是人工智慧研究的一大目標。此前的許多演算法雖能精通諸如圍棋、象棋等遊戲，卻無法“觸類旁通”，每遇到新的遊戲都需要更改框架，重新學習，更不用說將棋類遊戲的方法搬到電腦遊戲上了。

然而就在昨天，曾開發AlphaGo的DeepMind公司在《自然》上發文，正式宣佈了MuZero：這個新的演算法不僅精通圍棋、國際象棋和將棋，還能在30多款雅達利（Atari）遊戲上全面超越過去的人工智慧演算法和人類。MuZero的正式釋出，為人工智慧領域揭開了新的篇章。

故事從2014年開始，基於倫敦的DeepMind公司懷著一腔雄心壯志，著手建造一個巨大專案：他們想要將正在生根發芽的人工智慧（artificial intelligence，簡稱AI）技術大面積地應用到人類生活場景中，讓機器與人真正地互動並融合。

他們決定從國際象棋入手：這是一個需要長期計劃能力的人類遊戲，對初出茅廬的AI技術來說是一項嚴峻的挑戰。即使在1997年IBM的“深藍”（Deep Blue）擊敗當時的國際象棋冠軍卡斯帕羅夫之後，棋類AI的發展仍步履維艱。以圍棋（Go，即日語“碁”字之轉寫）為例：2013年，AI在不讓子的情況下幾乎無法擊敗人類職業選手。

2016年，AlphaGo橫空出世，以4:1擊敗韓國選手李世石，並在2017年的烏鎮圍棋峰會上擊敗了世界第一棋手柯潔。中國圍棋協會當即授予AlphaGo職業圍棋九段的稱號。

如果說AlphaGo的成功確立了AI的“圍棋霸權”，隨後的AlphaGo Zero和AlphaZero則進一步揭示了“棋類霸權”的可能性。作為AI演算法，不論是AlphaGo還是其繼位者，都需要大量的訓練。AlphaGo依賴於專家棋法（expert moves）資料集，而AlphaGo Zero捨去了這一步，直接與自己對戰以為訓練提供資料。AlphaZero則除了圍棋，更學會了日本象棋（將棋）和國際象棋。值得一提的是，2018年底釋出的AlphaZero，從第一次見到棋盤，到成為世界級棋類大師，只用了24小時。

然後，MuZero來了。一篇昨晚正式發表於《自然》的論文，揭示了一個更加通用、強力的演算法：MuZero不僅能下圍棋、將棋和國際象棋，還在30多款雅達利遊戲中展示出了超人類表現（superhuman performance）。

最重要的是，沒人教過MuZero這些遊戲的規則。

無師自通

自古以來，哲學家和科學家都幻想著有朝一日能造出“人工通用智慧”（artificial general intelligence）。簡單地說，人工通用智慧需要有極高的可塑性（flexibility），從而適應（甚至精通）各式不同的任務：一個能下棋、玩遊戲、做家務、開飛機的AI。然而在此之前，最好的AI演算法也只能精通數個同類任務；會下圍棋、將棋和國際象棋的AlphaZero就是一個例子。

這種限制，在很大程度上來自AI演算法對規則的依賴性。要想讓AlphaZero下好各種棋，人類需要明確地教它各種棋的規則。以國際象棋為例，AlphaZero知道象只能斜著走，還不能跨過障礙物，而馬可以跨過障礙物，但需要走“日”字。AlphaZero也知道什麼是輸贏和平局。可是一旦更換棋種，人類就需要將新棋種的規則從頭教給AlphaZero。

既然這種依賴性限制了目前AI演算法的應用範圍，那最簡單的解決方案，就是去除這種依賴性：人類可以不教AI下棋，只給它一個棋盤。每當AI選擇了下一步該如何走時，人類才告訴它這一步合不合法，並且是否導致了輸贏或平局。

——這就是MuZero面臨的情境。對於任何一個遊戲或任務，MuZero所掌握的只有一套“思考方式”，並沒有該任務的“行為準則”。它不知道國際象棋裡的馬該怎麼走，也不知道將棋中如何達成“王手”。如同第一次見到電腦的小孩，MuZero具有作出推理論斷的“思維工具”，但不知道如何才能贏得“掃雷”。

跟人類一樣，MuZero的秘訣，在於摸著石頭過河，為外部世界建立一個只屬於自己的“模型”（internal model）。在這個內部模型中，MuZero捨棄了一切表面上的規則，只留下對決策有用的資訊：價值（value，即當前決策“有多好”）、策略（policy，即最好的“下一步”是什麼）和獎勵（reward，即上一步“有多好”）。

要明白這種策略的特殊和有效性，我們可以拿MuZero和AlphaZero的神經網路作對比：

任何深度學習演算法在面對棋盤時，第一步總是觀察。AlphaZero能觀察當前棋局（），並直接利用計劃未來的棋步。這要多虧了它所知道的棋類規則：它明白做出一個動作（action）後的下一個棋局長什麼樣，並可以在下一個棋局的基礎上繼續規劃棋路，“想象”並評估各種不同的可能性。這樣的規劃方式，在深度學習上稱為“蒙特卡洛樹搜尋”（Monte Carlo tree search，MCTS）。MCTS允許演算法探索不同的可能性，並從中擇出最優的動作。因此，熟知規則的AlphaZero要想精通棋類，只需要一個“神經網路”（neural network），即“預測網路”（prediction network），給輸入一個狀態，它就能給出這個狀態的價值（）和潛在策略（）；透過評估各個可能性，AlphaZero就能得知當前最好的棋步。

MuZero則沒有這種“奢華待遇”：它需要摸索出棋盤上各個子的合法（legal）走法，還需要弄清輸贏的概念；當然，它的目標與AlphaZero一樣，贏就好了，越多越好。但在不清楚規則的情況下，MuZero需要另闢蹊徑，利用“表徵網路”（representation network），將觀察到的棋盤狀態轉換成只屬於自己的隱藏狀態（hidden state）。我們將當前的棋盤狀態稱為“O”（observation，即觀察），MuZero的當前隱藏狀態稱為。但這時，MuZero遇到了第二個大難題：如何像AlphaZero一樣評估未來的各種可能性呢？

不像AlphaZero，不知道棋盤規則的MuZero不能預測棋盤的各種可能狀態，因此，MuZero需要從零開始，創造自己對棋路的內部模型。幸運的是，有了隱藏狀態之後，MuZero就能算出狀態下可以做出的各種行動（經過學習，MuZero得出的可能行動會越來越符合規則），並能透過“動態網路”（dynamic network），利用MuZero選擇的行動和當前潛在狀態，推演出。在每一個真實世界的時間點內，MuZero都能利用自己的內部模型和MCTS選擇出這一個時間點的最佳行為，並將其應用於真實世界中。在實際做出了一個最佳行為後，這個行為又能再“回收”，用於訓練動態網路（從而改進MuZero的內部模型）。

AlphaZero和MuZero MCTS方法的並列對比。熟知規則的AlphaZero能由一個真實狀態和可能行為，推測下一個真實狀態。而MuZero由於不知道遊戲規則，只能將真實狀態表徵為隱藏狀態，學會建立自己的內在模型。製圖：羅丁豪

也就是說，由於AlphaZero對規則的掌握，它只需要一個預測網路就能精通棋類。而不能預先知曉規則的MuZero，則需要利用動態網路和表徵網路，自己學習並建立一個內在模型，從而學會下棋。在建立內在模型的過程中，人類不會給MuZero設定任何限制：MuZero可以捨棄任何資訊，只保留有用的元素（即價值、策略和獎勵）。

相比於只需要1個神經網路的AlphaZero，MuZero需要3個神經網路來建立內部模型，從而指導精確規劃。製圖：羅丁豪

與人類一樣，MuZero可以在它的“腦海”中創造任何規則和動態。它的目標是做出最精確、最有效的未來規劃。捨棄了"循規蹈矩"的MuZero反而因此獲得了極強的可塑性，在截然不同的棋類和電腦遊戲中都"得心應手"。

"超人"表現？

就這樣，MuZero這樣一個“無師自通”的演算法，竟然在AlphaZero引以為傲的棋類遊戲中輕鬆與後者打成了平手。

在國際象棋、將棋和圍棋中，MuZero的表現（藍線）達到甚至超過了AlphaZero（橙線）。而在雅達利遊戲“吃豆人小姐”中，MuZero的表現（藍線）遠超此前表現最佳的R2D2演算法得分（橙線）。圖片來源：Schrittwieser et al., Nature，翻譯製圖：羅丁豪

在國際象棋、將棋和圍棋中，MuZero都能達到AlphaZero的水平，甚至在圍棋中稍稍勝過了AlphaZero。這表明MuZero“自學成才”建立的內部模型，或許比AlphaZero的“循規蹈矩”更接近圍棋的要義。在雅達利遊戲中，MuZero的表現也非同尋常。以“吃豆人小姐”（Ms. Pac-Man）為例，MuZero的得分為243401.10，相比之下，人類的最高分只有6951.60，是MuZero的1/35。在57個測試用的雅達利遊戲中，MuZero在37箇中取得了歷史最高分，而人類則僅在5個遊戲中保持著最佳成績。

但是，在利用AlphaZero和其他演算法攻破了這些遊戲後，反而對MuZero隱藏起規則，讓它“閉上眼”下棋、“揹著手”玩遊戲的目的是什麼呢？

正如本文開頭所說，DeepMind和整個AI領域一樣，並不在乎國際象棋和雅達利遊戲本身。這是一場事關智慧的征途，目標是理解智慧本身。牙牙學語的嬰兒並不明白動名詞的區別，卻能在短短几個月內連詞成句，甚至創造出只屬於他們的句子。生物學家也並非生來就知曉細胞的各種秘密，而是在實驗和失敗中，一步步對生物世界建立了理論和模型，從而獲得深刻洞見。

事實很殘酷：循規蹈矩不是智慧。事先熟知規則再精通下棋，與先摸索規則、建立內部模型再精通棋路是全然不同的。前者只能困於“棋”中，後者則能將一套“思考方式”搬到各種任務上。前者的例子包括AlphaGo到AlphaZero的各種棋類AI，後者則包括MuZero和于爾根·施密德胡波（Jürgen Schmidhuber）著名的“迴圈世界模型”（Recurrent World Model）。

為外界建立內部表徵是人類最引以為傲的能力之一。如今在AI身上，這個能力再次證明了自己的價值。MuZero不僅讓人類看到了創造人工通用智慧的可能性，還為我們打開了一扇通往智慧本身的大門：

智慧究竟是什麼？我們離答案似乎越來越近。

最新評論

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 明年蘋果或釋出一款超貴產品，相比之下iphone12不算貴

熱門排行

劇多

怕啥來啥！DM最新全能AI：完全自學規則，表現碾壓人類