從 2016 年起,騰訊 AI Lab 就開始透露關於智慧體研究的程序。他們研發的圍棋 AI “絕藝”(Fine Art),現擔任中國國家圍棋隊訓練專用 AI 。
2017 年,“絕悟”研發啟動,到 2018 年時,“絕悟”已經達到業餘頂尖水平。
去年5月,騰訊 AI Lab 匹茨堡大學的研究人員曾向 AI 頂會 ICML 2018 提交了一篇論文《Hierarchical Macro Strategy Model for MOBA Game AI》,嘗試了 AlphaGo Zero 中出現的蒙特卡洛樹搜尋(MCTS)等技術,並取得了不錯的效果。
5v5大勝職業選手,1v1勝率達99.8%,僅有1場敗給國服第一后羿。
8月3日,騰訊策略協作型 AI “絕悟”再出山,對戰王者榮耀職業玩家,勝率相當驚人。
在當晚吉隆坡舉辦的王者榮耀最高規格電競賽事——世界冠軍盃半決賽的特設環節中,在職業選手賽區聯隊帶來的 5v5 水平測試中獲勝,升級至王者榮耀電競職業水平。
▲“絕悟”職業水平測試完整影片(3分55秒開始)
同時,“絕悟”的 1v1 版本也在上海舉辦的國際數碼互動娛樂展覽會 ChinaJoy 首次對公眾亮相,並向頂級業餘玩家開放為期四天的體驗測試。
在首日的 504 場測試中,“絕悟”測試勝率為 99.8%,僅在對方為王者榮耀國服第一后羿的情況下,輸 1 場。
當年 AlphaGo 打敗世界圍棋冠軍李世石,直接引爆第三次 AI 浪潮。但與現實世界相比,它解決的問題只是九牛一毛。更為複雜的即時策略遊戲(RTS)正成為研究人員們新的挑戰專案。
業界普遍認為,從這些策略遊戲中有望誕生下一個 AI 里程碑。
騰訊也早在兩年前就透露在做 AI 打王者榮耀方面的研究。去年12月,5個相互的獨立的 AI 在學會開黑技能後,5v5對陣王者榮耀中王者段位的人類玩家。大戰 250 個回合後,AI 拿下 48% 的勝率,幾乎與人類打成平手。
最新這場人機大戰究竟戰況如何?其背後的技術又如何實現?本文將簡要介紹這場人機大戰背後的技術,覆盤全場精彩時刻,並回顧騰訊 AI 探索智慧體研究的相關程序。
無需人類資料,一天訓練強度高達人類440年
“絕悟”名字寓意絕佳領悟力,其技術研發始於 2017 年 12 月。一年後,“絕悟”通過了由前職業選手與主播聯隊帶來的頂尖業餘水平測試。
在本次測試中,新的“絕悟”版本建立了基於“觀察-行動-獎勵”的深度強化學習模型。
▲騰訊策略協作型AI“絕悟”介紹
這款模型無需人類資料,從白板學習(Tabula Rasa)開始,讓 AI 自己與自己對戰,一天的訓練強度高達人類 440 年。
AI 完全從零開始摸索成功經驗,不僅學會了如何站位、打野、輔助保護和躲避傷害等遊戲常識,更驚喜的是,還探索出了不同於人類常規做法的全新策略。
遊戲中測試的難點在於,AI 需在不完全資訊、高度複雜度的情況作出複雜快速的決策。
在龐大且資訊不完備的地圖上,10 位參與者要在策略規劃、英雄選擇、技能應用、路徑探索及團隊協作上面臨大量、不間斷、即時的選擇。這帶來了極為複雜的局面,預計有高達 10 的 20000 次方種操作可能性。
要知道,整個宇宙原子總數也僅僅是10的80次方。
團隊還建立 One Model 模型提升訓練效率,最佳化通訊效率提升 AI 的團隊協作能力,使用零和獎懲機制讓 AI 能最大化團隊利益,使其打法果斷,有舍有得。
拆解“絕悟”六大精彩時刻
下面,讓我們一起來複盤一下 AI 在打王者榮耀過程中的一些精彩時刻。
1、探索全新策略
如圖,開局時,“絕悟”沒選擇傳統人類對線走位策略,而是由雙 C 位英雄虞姬和王昭君先一起清理中路第一波兵線,壓制敵方中輔。之後又轉上路壓制曹操血線。
2、長線策略
在對線期,賽區聯隊三人壓迫下路,“絕悟”果斷選擇用三個 AI 反壓賽區聯隊的上路,最終雙方互換一塔,維持均勢。
3、團隊協作
到比賽中期,“絕悟”四人追擊娜可露露,AI 達摩一腳將娜可露露反踢入 AI 群中,再由四個 AI 完美配合拿下自己的首殺。
4、即時策略
一對一時,賽區聯隊實力較強的曹操追擊“絕悟”虞姬,虞姬在殘血狀態退至高地。看到曹操抗塔血量大減後,把握機會絕地反殺。
5、即時策略+團隊協作
比賽後期在賽區聯隊的上路高地塔團戰,AI 王昭君先手被對方秒殺,“絕悟”果斷選擇反打,以漂亮的一波團戰全殲對手。
6、即時策略+團隊協作
在賽區聯隊全隊覆滅後, “絕悟”的兵線尚未到達,下路高地塔還有過半血量,“絕悟”果斷選擇四人輪流抗塔,無兵線強拆塔。
* 注:賽事尾聲,賽區聯隊團滅後,“絕悟”未直接推水晶,而是計算整體收益後,選擇先推最後一個高地塔,再推水晶直至勝利。
起步三年,目標遠大
這已經不是騰訊 AI Lab第一次秀 AI 大戰遊戲玩家了。
從 2016 年起,騰訊 AI Lab 就開始透露關於智慧體研究的程序。他們研發的圍棋 AI “絕藝”(Fine Art),現擔任中國國家圍棋隊訓練專用 AI 。
2017 年,“絕悟”研發啟動,到 2018 年時,“絕悟”已經達到業餘頂尖水平。
去年5月,騰訊 AI Lab 匹茨堡大學的研究人員曾向 AI 頂會 ICML 2018 提交了一篇論文《Hierarchical Macro Strategy Model for MOBA Game AI》,嘗試了 AlphaGo Zero 中出現的蒙特卡洛樹搜尋(MCTS)等技術,並取得了不錯的效果。
那時,AI 還只能玩狄仁傑一個英雄。幾個月後,它們已經可以“五人”組隊,在王者段位和人類玩家打得有來有回了。
在去年 12 月的 KPL 秋季決賽中,“絕悟”曾接受前職業 KPL 選手辰鬼、零度和職業解說白樂、九天和立人組成的人類戰隊的水平測試,這些人類戰隊的平均水平超過 99% 玩家。
最終,AI 戰隊贏得比賽的勝利。
騰訊還在射擊類頂級 AI 競賽 VizDoom 奪冠,並在《星際爭霸2》首先研發出擊敗內建 AI 的智慧體。
騰訊副Quattroporte姚星介紹,“電子競技”將成為策略協作型 AI “絕悟”未來短期內的主要應用場景。
與傳統體育專案一樣,電競職業選手也需要手眼腦協調、策略和操作快速反應、團隊協作精神及大量刻苦訓練。
藉助在演算法和資料方面的優勢, AI 可為職業選手提供資料、戰略與協作類實時分析與建議,及不同強度與級別的專業陪練。以前沿科技推動電競專業化發展,AI 將繼續推動中國電競在全球範圍內保持領先。
結語:解決通用人工智慧的關鍵一步
據騰訊介紹,從長期應用上,“絕悟”將是騰訊攻克 AI 終極研究難題——通用人工智慧的關鍵一步。
AGI 代表研發能在通用系統中執行多種複雜命令,達到或超越人類水平的 AI。
從“絕藝”到“絕悟”,騰訊 AI Lab 不斷讓 AI 從 0 到 1 去學習進化,並發展出一套合理的行為模式。
這中間的研發經驗、方法與結論,長期來看,有望在大範圍內,如探索 AI 結合電競、醫療、製造、無人駕駛、農業到智慧城市管理等廣闊領域展現巨大潛力。
而本次兩類技術水平測試結果,一定程度上反映出騰訊在深度強化學習、多智慧體決策智慧課題上的國際級 AI 研究水準,也標誌著騰訊在攻堅通用人工智慧難題上更進一步。
騰訊 AI Lab 將透過論文等形式進一步分享技術細節,透過開放研究,幫助和啟發更多研究者。