人工智慧已經在另一個遊戲中擊敗了人類。由Facebook人工智慧實驗室和卡耐基梅隆大學(CMU)研究人員設計的一個專案在一系列六人無限制德州撲克遊戲中擊敗了一些世界頂級撲克玩家。
超過12天和10000手,名為Pluribus的AI系統在兩種不同的環境中面對12名職業選手。其中一個是,人工智慧與五個人類玩家一起玩; 另一方面,五個版本的AI與一個人類玩家一起玩(計算機程式在這種情況下無法合作)。據研究人員稱,Pluribus每手平均贏得5美元,每小時獎金約為1000美元 - 這是一個“決定性的勝利”。
“可以肯定地說,我們處於超人級的水平並且不會發生變化,”Facebook人工智慧實驗室的研究科學家兼Pluribus的聯合創始人Noam Brown告訴The Verge。
“Pluribus是一個非常努力的對手。在任何形式的手牌上都很難將其擊敗,”六次世界撲克錦標賽冠軍和12名專業選手之一Chris Ferguson在一份新聞宣告中表示。
在《科學》雜誌上發表的一篇論文中,Pluribus背後的科學家表示,這次勝利是人工智慧研究的一個重要里程碑。雖然機器學習已經達到了國際象棋和圍棋等棋盤遊戲以及《星際爭霸2》 和《Dota》等電腦遊戲的超人級水平,但在某種程度上,六人無限制德州撲克代表了更高的難度基準。
這不僅需要贏得玩家隱藏的資訊(使其成為所謂的“不完美資訊遊戲”),它還涉及多個玩家和複雜的勝利結果。著名的Go遊戲比可觀察宇宙中的原子具有更多可能的棋盤組合,這使得人工智慧制定下一步的動作是一個巨大的挑戰。但是所有的資訊都可以看到,而且遊戲只有兩種可能的結果:輸贏。這使得在某種意義上更容易訓練AI。
早在2015年,機器學習系統在雙人德州撲克中擊敗了人類專業選手,但是將對手數量增加到5個會大大增加複雜性。為了建立一個能夠應對這一挑戰的計劃, Brown和他的同事-CMU教授Tuomas Sandholm部署了一些關鍵策略。
首先,他們教Pluribus玩撲克,讓它與自己的副本進行比賽 - 這個過程被稱為自我對弈(self-play)。這是人工智慧訓練的常用技術,系統能夠透過反覆試驗來學習遊戲; 與自己玩數十萬手牌。這個培訓過程也非常有效:使用配備少於512GB RAM的64核伺服器在短短8天內建立了Pluribus。在雲伺服器上培訓這個程式只需150美元,與其他最先進系統的十萬美元價格相比,這相當便宜。
然後,為了應對六名玩家的額外複雜性, Brown和Sandholm提出了一種有效的方式讓人工智慧在遊戲中展望未來並決定採取何種行動 - 一種稱為搜尋功能的機制。其不是試圖預測對手將如何一直玩到遊戲結束(計算將在幾個步驟中變得非常複雜),而Pluribus的設計只是展望前方兩三步。Brown說道,這種截斷的方法是“真正的突破”。
例如,Pluribus非常擅長“嚇唬”其對手,與其對抗的專業人士讚揚其“無情的一致性”。Brown稱人們經常把虛張聲勢視為一種獨特的人類特質。但他表示,這種藝術仍然可以簡化為數學上最優的策略。“人工智慧並不認為虛張聲勢具有欺騙性。它只是看到了決定,使其成為特定情況下的最多錢,“他說。“我們展示的是人工智慧可以虛張聲勢,它可以比任何人更好地詐唬。”
Brown和Sandholm希望他們所展示的方法可以應用於網路安全、欺詐預防和金融談判等領域。Brown稱這“甚至可以用於自動駕駛汽車”。值得注意的是Pluribus是一個靜態程式。在最初的八天訓練期之後,AI從未更新或升級,因此它可以更好地匹配其對手的策略。在與職業選手一起度過的12天裡,他們從來沒有能夠在比賽中找到一致的弱點。Pluribus一直處於領先地位。
人工智慧已經在另一個遊戲中擊敗了人類。由Facebook人工智慧實驗室和卡耐基梅隆大學(CMU)研究人員設計的一個專案在一系列六人無限制德州撲克遊戲中擊敗了一些世界頂級撲克玩家。
超過12天和10000手,名為Pluribus的AI系統在兩種不同的環境中面對12名職業選手。其中一個是,人工智慧與五個人類玩家一起玩; 另一方面,五個版本的AI與一個人類玩家一起玩(計算機程式在這種情況下無法合作)。據研究人員稱,Pluribus每手平均贏得5美元,每小時獎金約為1000美元 - 這是一個“決定性的勝利”。
“可以肯定地說,我們處於超人級的水平並且不會發生變化,”Facebook人工智慧實驗室的研究科學家兼Pluribus的聯合創始人Noam Brown告訴The Verge。
“Pluribus是一個非常努力的對手。在任何形式的手牌上都很難將其擊敗,”六次世界撲克錦標賽冠軍和12名專業選手之一Chris Ferguson在一份新聞宣告中表示。
在《科學》雜誌上發表的一篇論文中,Pluribus背後的科學家表示,這次勝利是人工智慧研究的一個重要里程碑。雖然機器學習已經達到了國際象棋和圍棋等棋盤遊戲以及《星際爭霸2》 和《Dota》等電腦遊戲的超人級水平,但在某種程度上,六人無限制德州撲克代表了更高的難度基準。
這不僅需要贏得玩家隱藏的資訊(使其成為所謂的“不完美資訊遊戲”),它還涉及多個玩家和複雜的勝利結果。著名的Go遊戲比可觀察宇宙中的原子具有更多可能的棋盤組合,這使得人工智慧制定下一步的動作是一個巨大的挑戰。但是所有的資訊都可以看到,而且遊戲只有兩種可能的結果:輸贏。這使得在某種意義上更容易訓練AI。
早在2015年,機器學習系統在雙人德州撲克中擊敗了人類專業選手,但是將對手數量增加到5個會大大增加複雜性。為了建立一個能夠應對這一挑戰的計劃, Brown和他的同事-CMU教授Tuomas Sandholm部署了一些關鍵策略。
首先,他們教Pluribus玩撲克,讓它與自己的副本進行比賽 - 這個過程被稱為自我對弈(self-play)。這是人工智慧訓練的常用技術,系統能夠透過反覆試驗來學習遊戲; 與自己玩數十萬手牌。這個培訓過程也非常有效:使用配備少於512GB RAM的64核伺服器在短短8天內建立了Pluribus。在雲伺服器上培訓這個程式只需150美元,與其他最先進系統的十萬美元價格相比,這相當便宜。
然後,為了應對六名玩家的額外複雜性, Brown和Sandholm提出了一種有效的方式讓人工智慧在遊戲中展望未來並決定採取何種行動 - 一種稱為搜尋功能的機制。其不是試圖預測對手將如何一直玩到遊戲結束(計算將在幾個步驟中變得非常複雜),而Pluribus的設計只是展望前方兩三步。Brown說道,這種截斷的方法是“真正的突破”。
例如,Pluribus非常擅長“嚇唬”其對手,與其對抗的專業人士讚揚其“無情的一致性”。Brown稱人們經常把虛張聲勢視為一種獨特的人類特質。但他表示,這種藝術仍然可以簡化為數學上最優的策略。“人工智慧並不認為虛張聲勢具有欺騙性。它只是看到了決定,使其成為特定情況下的最多錢,“他說。“我們展示的是人工智慧可以虛張聲勢,它可以比任何人更好地詐唬。”
Brown和Sandholm希望他們所展示的方法可以應用於網路安全、欺詐預防和金融談判等領域。Brown稱這“甚至可以用於自動駕駛汽車”。值得注意的是Pluribus是一個靜態程式。在最初的八天訓練期之後,AI從未更新或升級,因此它可以更好地匹配其對手的策略。在與職業選手一起度過的12天裡,他們從來沒有能夠在比賽中找到一致的弱點。Pluribus一直處於領先地位。