首頁>遊戲>

如果說有一種解決問題的方法能跨域文化、種族和地域,那麼除了抽籤這種純靠運氣的方式,恐怕只剩下猜拳了。人們普遍認可 “石頭-剪刀-布” 三者之間的剋制關係。“公平+隨機” 的特性使其不僅是活躍氣氛的小遊戲,更能作為一種相對公平的解決問題的手段,廣泛應用在解決分歧,決定順序,或者確定歸屬的關鍵時刻。

更不用說,在誰洗碗、誰拖地、誰做飯之類的家務活上,猜拳自帶的 “願賭服輸” 可以有效維繫家庭和睦,堪稱隨叫隨到的家庭關係調解員。

在大多數人的認知裡,猜拳是隨機事件,玩家獲勝的概率應該是一樣的且恆定在三分之一,但事實可能並非如此。

近日,浙江大學何賽靈教授的研究團隊開發了一個基於馬爾可夫鏈的 AI 模型,專門用來玩猜拳遊戲。在和 52 名人類玩家分別大戰 300 回合之後,AI 擊敗了 95% 的玩家。

圖 | AI 模型淨勝場數變化

對於人類玩家來說,規則是贏 +2 分,平 +1 分,輸不得分。在與 AI 對戰之前,參與者知道獲勝會獲得金錢獎勵,總分越高,贏的錢越多。因此玩家故意放水或者隨便亂選的概率極低。

即便如此,AI 仍然大勝人類。在最懸殊的一場較量中,AI 獲得了 198 次勝利,55 次平手,僅輸了 47 次,勝率超過人類對手 4 倍。全部 15600 回合詳盡的原始博弈資料,在論文的補充資料中給出(詳見參考文獻)。如果猜拳勝負真的是隨機概率,那麼從統計學的角度來講,15600 場比賽下來,AI 獲得如此大優勢的概率非常低。

擁有“智囊團”的Multi-AI模型

本質上來看,猜拳屬於博弈問題,其背後蘊藏著經典的納什均衡,而每個個體的習慣、認知、策略和策略變化都會影響實際勝率。比如你和對手很熟悉,那麼你可能知道他/她經常出布,因此可以多出剪刀來剋制。

浙江大學何賽靈教授團隊提出的 AI 模型就是利用了類似的方法,證明了猜拳真的存在針對不同個體的長期制勝策略,可以有效提高勝率。這套 AI 模型基於 n-階馬爾可夫鏈設計,擁有記憶性,能夠向前追溯最多 n 個歷史狀態並加以利用。為了在實戰中應對人類玩家的不同性格和策略,研究團隊還發明了一套 Multi-AI 模型。“建立對每個人都有效的單一模型很困難,因此我們決定將單個模型結合起來,使其能夠區分和適應更多不同的競爭策略。” 研究人員在論文中解釋稱。在與人類對戰的第一套 Multi-AI 模型中,他們放入了 1-5 階馬爾可夫鏈,即 5 個獨立的 AI 模型,分別參考之前 1-5 個動作。Multi-AI 會從整體上參考 5 個 AI 模型各自的決策,至於選擇哪個,還要看它們最近 5 次的表現。這裡的 “最近 5 次” 被定義為一個超引數,名為 Focus length,可以視情況調整大小,實現進一步優化。在與人類對戰的第二套 Multi-AI 模型中,該引數就被設為了 10。

圖 | Multi-AI 模型的決策邏輯打個比方,每一個 n 階馬爾可夫鏈模型就像是一位軍師,各自有不同的決策標準。而 Multi-AI 模型就是司令,手底下有好多名軍師組成的智囊團。做決策時,每個軍師會提交自己的出拳建議,司令會根據他們過去幾次(Focus Length)的表現,採納綜合分數最高的人的建議,以提高長期勝率。如果人類玩家連續勝利,就會促使 Multi-AI 轉向選擇其他 AI 模型的更優解。如果人類玩家連續失敗,大概率會轉換策略,或者打破之前的出拳規律,這時 Multi-AI 也可以隨之調整。最終的社會實驗結果反映出了這個想法的有效性。在 52 名志願者中,只有不到 5 人擊敗了 AI。很多人都在最初 20-50 個回合裡處於領先,但隨後就被 AI 捕捉到了隱藏的行為模式,飲恨敗北。那些擊敗 AI 的人,勝率也只是稍微高出一些,並未拉開太大差距。

6 年前被質疑的研究

值得一提的是,在開發 AI 模型背後的演算法時,研究團隊閱讀了 6 年前另一個浙大團隊的研究成果,但使用了另一種不同的博弈策略。相較於之前對於所有玩家資料整體以統計學的方式進行研究,這裡的 Multi-AI 模型更強調針對不同玩家之間的個性差異、出拳策略,來及時的進行調控,選取當下最適宜的博弈策略。2014 年 5 月,很多媒體都報道了一項以 “石頭剪刀布” 遊戲為物件的科研成果。

這項研究課題原本是 “可控實驗社會博弈系統中一些非平衡統計物理問題”,但媒體和輿論關注的重點大多是 “如何提高猜拳勝率”,因此還被質疑是浪費經費。

圖 | 2014 年《麻省理工科技評論》的報道論文揭示了猜拳遊戲背後蘊藏著不同的行為模式,比如贏家傾向於下一輪出同樣的手勢,而輸家傾向於改變;人們更願意出石頭等等。但更深層的主旨是探討納什均衡在真實博弈中是否成立,研究現實中的博弈模型框架,並且分析遊戲中的巨集觀週期現象與微觀行為基礎。這其中用到的基礎理論涉獵博弈論、心理學和神經科學等多個領域。類似的,2020 年這項關於 “石頭剪刀布” 的最新研究,成果不僅僅是一個很厲害的猜拳 AI,還是一個很厲害的迴圈制衡模型分析師。未來有望拓展到其他博弈場景,比如預測競爭對手的下一步舉動,規劃更有效的競選策略,或者制定更有利的定價方案等等。

“(我們發現)人類的競爭行為確實有規律可循,通過使用適當的簡單模型就能利用這些規律,”研究人員在論文中總結道,“對於競爭行為模式以及如何利用它們的研究,有望讓我們更好地建模,預測和適應不同的競爭模式。”

最新評論
  • 年營收30億,智明星通投資的這家SLG廠商贏麻了
  • 可玩性超高的5款模擬類手遊推薦