首頁>遊戲>

麻省理工學院的研究人員近日開發了一套會玩“阿瓦隆(Avalon)”桌遊的 AI 系統,名為 DeepRole。它可以在遵守所有遊戲規則的前提下,在阿瓦隆多人線上遊戲網站 ProAvalon.com 上跟 0-4 名人類玩家同場競技,有些是它的隊友,有些則是對手。

在超過 4000 多場遊戲中,無論所處哪個陣營,隊友是 AI 還是人類,DeepRole 取得的平均勝率都超過了人類玩家。而且資料統計顯示,如果用 AI 替換一名人類玩家,所處陣營的勝率最高可以提高 12%。雖然被替換玩家的遊戲水平不詳,但超過 10% 的穩定勝率提升說明 AI 的表現已經超出了普通玩家。

這項研究是一個更廣泛的專案的一部分,該專案旨在更好地模擬人類如何依據社會反應做出決定,從而幫助開發能夠更好地理解、學習人類,並與人類合作的機器人。

在下個月的神經資訊處理系統大會(NeurIPS)上,麻省理工學院研究團隊將進一步展示 DeepRole。目前研究成果已經以預印本的形式發表在 Arxiv 上。

“阿瓦隆”的遊戲規則

桌遊“阿瓦隆”的全稱是“抵抗組織:阿瓦隆(The Resistance: Avalon)”,類似於“狼人殺”。一局遊戲由 5-10 人組成,每人有一張身份牌、一張成功票和一張失敗票。所有人被劃分為抵抗組織和間諜兩個相互對立的陣營。前者希望任務成功,後者希望任務失敗。

每局遊戲共有 5 輪任務,玩家們輪流擔任隊長,負責指派 3-5 個人行使投票權,決定該輪任務成功與否。只要有一張失敗票,該任務就算失敗。

遊戲的核心角色是抵抗組織陣營的“梅林(Merlin)”和間諜陣營的“刺客(Assassin)”。“梅林”知道誰是間諜,因此可以不讓他們執行任務,確保任務 100% 成功,但也不能做的太明顯,將身份暴露給間諜陣營會引來“刺客”的刺殺。

抵抗組織陣營的玩家在執行任務時只能投成功票,獲勝條件是三輪任務成功。而間諜陣營玩家可以視情況投失敗票或成功票(隱藏身份),獲勝條件是三輪任務失敗或完成對“梅林”的刺殺(正確找出“梅林”是誰)。

這是一種明顯的資訊不對稱遊戲,考驗玩家在短時間內收集資訊並加以分析和推理的能力。

對於 AI 來說,想要玩好這類遊戲,最難的一環就是如何區分陣營,尤其是在玩家會刻意隱藏身份的前提下找出誰是隊友,誰是對手。

“人類向他人學習並與之合作,使我們能夠共同實現一個人無法獨立完成的事情,”研究團隊成員 Max Kleiman-Weiner 表示,“像『阿瓦隆』這樣的遊戲可以更好地模仿人們在日常生活中所經歷的動態社交環境。無論在幼兒園還是職場,我們都必須弄清楚哪些人與自己一組,可以一起共事。”

DeepRole 的設計原理

研究團隊出於概念驗證的原因稍微簡化了遊戲,DeepRole 被限定在 5 人局中,因為擁有特殊能力的角色會隨著人數的增加而增加,使遊戲的不確定性和複雜程度大幅上升,但其他規則沒有任何變化。

在開發 DeepRole 的過程中,研究人員使用了一種常見的“反事實遺憾最小化(CFR)”的遊戲計劃演算法,通過反覆與自己對戰來學習遊戲,同時還引入了演繹推理(Deductive Reasoning)的技巧,使其具備從已有假設或前提推匯出新結論的能力,比如 AI 看到任務中出現了一張失敗票,就能推斷出必然至少有一名間諜的結論。

在遊戲中,CFR 會前瞻性地建立由線和節點組成的“遊戲決策樹”,整合了每個玩家在未來每個決策點可能採取的所有動作,以描述每個玩家可能做出的舉動。

在進行數十億次的遊戲模擬時,CFR 會注意哪些動作增加或減少了獲勝的機會,反覆修改其策略以包含更多的好決策,最終選擇最優解。

雖然與圍棋或者撲克相比,“阿瓦隆”的遊戲規則並不複雜,但由於每輪任務都可以選擇不同的幾個人,而且通過集體投票表決還可以最多否決五次隊長的提議,因此在一局遊戲中,其狀態空間包含 10^56 組不同的資訊集,甚至超過了國際象棋的狀態空間(10^47)。

為了縮小決策樹的尺寸,優化尋找最優解的過程,研究團隊還開發了價值網路,配合 CFR 共同使用。

在訓練過程中,DeepRole 沒有藉助任何人類玩家的資料,僅通過自己扮演兩個陣營的角色來“左右互搏”。它會通過決策樹來預測每個玩家將要做什麼,每一個分支都代表著玩家的不同策略,而樹上的每個節點都有對應的價值,是 AI 對選擇這條策略的預估回報。

理論上,一條分支的整體價值越高,意味著對應陣營的獲勝的可能性就越大。

在遊戲的執行任務環節,DeepRole 會以自己陣營為基礎,用決策樹中的選擇對比每個玩家的真實選擇。如果玩家做出的選擇和 AI 預期的不一樣,那麼該玩家就可能是在對立陣營。隨著遊戲的進行,它會積累更多的資料,對玩家身份的判斷也會更加準確。最終,這些概率資訊會用於更新 AI 的策略,以增加其獲勝機會。

與此同時,AI 還會使用相同的技術來估計第三人視角的觀察者如何看待自己的行為。這有助於判斷其他玩家的反應,從而做出更明智的決策。

“如果一個兩人執行的任務失敗,那麼合理的推斷是其中至少有一名間諜。AI 未來很可能不會在同一任務中同時帶上這兩人,因為它知道其他抵抗組織陣營的玩家會覺得這個提議很糟糕,”論文的第一作者 Jack Serrino 解釋道。他也是狂熱的“阿瓦隆”遊戲愛好者。

玩法高階,勝率不俗,還不用溝通

在真實測試中,從未跟人類一起練習的 DeepRole 表現不俗。

在一局玩家上傳的視訊中,AI 扮演的“梅林”甚至懂得高階玩法:人類玩家在後期判斷出了哪三個人是好人(抵抗組織),於是派這三個人執行任務,“梅林”在明知道這三人出任務絕對安全的情況下,依然不斷否決提議,以混淆間諜的判斷,讓他們分不清誰是“梅林”,最終成功避免被刺殺。

超過 4000 場的遊戲統計資料顯示,在一局有 5 名人類玩家的遊戲中,如果用 AI 替換其中之一,其所處陣營的平均勝率會比替換前高出約 12%。反之,在一局有 5 個 AI 的遊戲中,如果用人類玩家替換其中之一,其陣營的平均勝率則會下降約 8%。

儘管玩家水平參差不齊,沒有一個衡量標準,但超過 10% 的勝率差距的確能體現出 DeepRole 的表現不俗。

值得一提的是,DeepRole 在遊戲過程中不會與其他玩家交流,依舊能取得不錯的成績。通常來說,溝通是“阿瓦隆”等桌遊的關鍵組成部分。在遊戲中,人類玩家可以通過遊戲平臺的文字框相互交流。

“但事實證明,僅憑觀察玩家的行為,AI 就能夠與其他人很好地合作。這很有趣,因為人們傾向於認為這樣的遊戲需要複雜的溝通策略,”Kleiman-Weiner 表示。

接下來,研究團隊將嘗試讓 DeepRole 使用簡單的文字進行交流,例如給出自己對玩家陣營的看法——這些資訊已經以概率的形式存在於 AI 的決策樹當中了,但需要按照概率配上正確的文字。

除此之外,他們還想讓 DeepRole 學習更強調溝通、社交和推理的“狼人殺”。這對溝通能力提出了更高的要求,因為它需要學習如何爭論並說服其他玩家,涉及到的推理因素也更復雜。

“在這類遊戲中,還有很多難點需要克服,但溝通絕對是最關鍵的因素,”Serrino 強調。

最新評論
  • 年營收30億,智明星通投資的這家SLG廠商贏麻了
  • 皇室戰爭:策劃道歉,屠夫回撥至9月資料,天狗玩家將重出江湖