升級版MuZero：無需告知規則，觀察學習時即可掌握遊戲

首頁>科技>新智元2020-12-24 14:14

升級版MuZero：無需告知規則，觀察學習時即可掌握遊戲

DeepMind的使命是證明AI不僅可以精通遊戲，甚至可以在不知道規則的情況下做到這一點，最新的MuZero就實現了這一目標。

在象棋和圍棋比賽中，都是為AI提供了一組不變的、已知的遊戲規則，但MuZero完全不需要提供規則手冊，透過自己試驗，就學會了象棋圍棋遊戲和各種Atari遊戲，其透過考慮遊戲環境的各個方面來評估是否重要，並可透過覆盤遊戲在自身錯誤中學習。

2016年，DeepMind 推出了第一個人工智慧程式 AlphaGo，在圍棋遊戲中擊敗人類。兩年後，它的繼任者AlphaZero從零開始學習圍棋、國際象棋和將棋。

現在，在《自然》雜誌的一篇論文中，DeepMind又帶來了 MuZero，這是在尋求通用人工智慧演算法方面邁出的重要一步。

由於它能夠在未知環境中計劃勝利的策略，MuZero 掌握圍棋、國際象棋、shogi 和 Atari ，而不需要被告知遊戲規則。

多年來，研究人員一直在尋找方法，既可以學習一個模型，解釋他們的環境，然後可以使用該模型來規劃最佳的行動方案。到目前為止，大多數方法都難以有效地在不同domain之間規劃，比如 Atari，其中的規則或動態通常是未知的和複雜的。

MuZero 最初在2019年的一篇初步論文中被首次提出，透過學習一個只關注規劃environment最重要方面的模型來解決這個問題。透過將這個模型與 AlphaZero 強大的lookahead tree search相結合，MuZero 在 Atari benchmark上達到了SOTA，同時在圍棋、國際象棋和將棋的經典規劃挑戰中與 AlphaZero 的表現相匹敵。透過這樣做，MuZero 展示了強化學習演算法能力上的一個重大飛躍。

對未知模型的泛化

做計劃的能力是人類智力的重要組成部分，它使我們能夠解決問題並對未來做出決定。例如，如果我們看到烏雲正在形成，我們可能會預測會下雨，並決定在出門之前帶上一把雨傘。人類學習這種能力很快，可以泛化到新的場景當中，這是DeepMind一直希望演算法擁有的特徵。

研究人員試圖透過兩種主要方法來解決人工智慧中的這一主要挑戰: lookahead search 和 model-based planning。

使用lookahead search的系統，如AlphaZero，在跳棋、國際象棋和撲克等經典遊戲中取得了顯著的成功，但問題在於需要依賴對環境動態的瞭解，如遊戲規則或精確的模擬器。這使得它們很難應用於混亂的現實世界問題，而這些問題通常是複雜的，難以提煉成簡單的規則。

基於模型的系統旨在透過學習環境動態的精確模型來解決這個問題，然後使用它來進行規劃。然而，建模環境的每一個方面的複雜性之高，使得這類演算法無法使用在一些視覺豐富的領域，如Atari。到目前為止，Atari 上最好的結果來自無模型（model-free）系統，如 DQN、 R2D2和 Agent57。顧名思義，無模型演算法不使用已知模型，而是估計下一步採取的最佳行動。

MuZero 使用一種不同的方法來克服以前方法的侷限性。MuZero 沒有嘗試為整個環境建模，而是隻建模對Agent的決策過程重要的方面。畢竟，知道一把雨傘能讓你保持乾爽比模擬空氣中雨滴的形狀更有用。

具體來說，MuZero 模擬了對規劃至關重要的三個環境要素:

Value: 目前的位置的好壞程度

Policy: 能採取的最佳程度

Reward: 上一個動作的好壞程度

這些都是透過深層神經網路學習的，這些都是 MuZero 所需要的，以便了解當它採取某種行動時會發生什麼，並據此制定計劃。

上圖展示了蒙特卡羅樹搜尋如何用 MUZERO 神經網路進行規劃。從遊戲中的當前位置(頂部的示意圖)開始，MUZERO 使用表示函式(H)將觀察對映到神經網路(S0)使用的嵌入。使用動態函式(G)和預測函式(F) ，MUZERO 可以考慮未來可能的動作序列(A) ，並選擇最佳動作。

MUZERO 使用它在與環境互動時收集的經驗來訓練它的神經網路。這種經驗包括來自環境的觀察和獎勵，以及在決定最佳行動時所進行的搜尋的結果。

在訓練過程中，該模型與收集到的經驗一起展開，在每個步驟中預測先前儲存的資訊: 價值函式 V 預測和觀測的獎勵之和(U) ，策略估計(P)預測先前的搜尋結果(Π) ，獎勵估計(R)預測最後的觀測獎勵(U)。

這種方法還有另一個主要的好處: MuZero 可以重複使用它學到的模型來改進它的計劃，而不是從環境中收集新的資料。例如，在 Atari 套件的測試中，這個變體被稱為 MuZero Reanalyze，它90% 的時間使用模型來重新計劃在過去的經驗中應該做什麼。

效能

DeepMind 選擇了四個不同的Domain來測試 MuZeros的能力。圍棋、國際象棋和將棋被用來評估它在具有挑戰性的規劃問題上的表現，而我們使用Atari套件作為更復雜的視覺問題的基準。在所有的情況下，MuZero 的強化學習的演算法達到了新的SOTA，在 Atari 套件上的表現優於所有之前的演算法，並且匹配了圍棋、國際象棋和將棋的 AlphaZero 的超人表現。

DeepMind的研究人員還更詳細地測試了 MuZero 如何使用它學到的模型進行規劃。

從圍棋中經典的精確規劃的挑戰開始，其中一步棋就能決定輸贏。為了證實規劃更多應該導致更好的結果的直覺，測量給予更多的時間來計劃每一步行動時，一個完全訓練過的 MuZero 版本能變得多麼強大(見下面的左圖)。結果顯示，當把每次移動的時間從0.1秒增加到50秒時，遊戲力量增加了1000多 Elo(一個玩家的相對技能的度量)。這類似於業餘選手和職業選手之間的區別。

為了測試計劃是否在整個訓練過程中也帶來好處，研究人員在 Atari 遊戲 Ms Pac-Man (上面的右圖)上進行了一系列實驗，使用了單獨的訓練過的 MuZero 例項。每次行動都允許考慮不同數量的規劃模擬，範圍從5到50。結果證實，增加每個動作的計劃量可以讓 MuZero 更快地學習並獲得更好的最終效能。

有趣的是，當 MuZero 被允許每次只考慮六到七次模擬時，無法涵蓋 Pac-Man 中的所有可用動作，但它仍然取得了良好的效能。這表明，MuZero 能夠在行動和情況之間進行概括，而不需要為了有效地學習而竭盡全力地尋找所有可能性。

MuZero 既能夠學習環境模型，又能夠成功地使用它來進行計劃，這證明了在強化學習演算法和通用人工智慧演算法方面的重大進步。

它的前身 AlphaZero 已經應用於化學、量子物理等領域的一系列複雜問題。而 MuZero 強大的學習和規劃演算法背後的理念，可能為應對機器人技術、工業系統以及其它遊戲規則尚不為人知的混亂現實環境中的新挑戰鋪平了道路。

參考連結：

https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

最新評論

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 位元組跳動披上「白大褂」？

熱門排行

劇多

升級版MuZero：無需告知規則，觀察學習時即可掌握遊戲