在其人工智慧擊敗眾多人類頂尖高手後,DeepMind已經轉向更雄心勃勃的東西。DeepMind已開始使用了強化學習來促進AI學習翫《雷神之錘3》(Quake III)的多人奪旗模式。
在經典射擊遊戲《雷神之錘3》的奪旗模式中,AI需要分析透過顯示器電纜傳送的原始影象,以確定規則是什麼以及如何獲勝。為了與“普通玩家”進行競賽,它需要進行14萬場遊戲;而為了與“老手”進行競賽,AI需要進行17.5萬場遊戲,當研究人員讓AI遊玩了45萬場多人模式後,AI明顯優於所有人類玩家。
AI針對隨機生成的地圖進行了培訓,以防止其採用特定地圖獨有的策略。在整個過程中,人類隊伍比AI對平均少了16面旗幟,一對專業遊戲玩家在練習12小時後與AI進行競賽時,勝率只有25%的時間內擊敗AI。比賽中的四十個人類玩家認為AI比其他人類玩家更合作。
研究人員在AI中構建了兩個層,即負責元策略的“思考”層以及將這些策略解釋為特定操作的“執行”層。它開發了專門的神經元,用於檢查它是否有旗幟,隊友是否有旗幟,是否有敵人在哪裡,以及敵人的基地在哪裡。
對於比賽,研究人員將AI的反應時間增加了267毫秒,這是他們計算的平均玩家的反應時間,並且它對AI的表現幾乎沒有影響。與人類50%的準確率相比,人工智慧最初的準確率為80%。
研究中最有趣的發現之一是最好的隊友組合是一個人類和一個人工智慧。儘管不能像一對人類那樣進行交流,也沒有像人工智慧預期的那樣預測對方的動作,但不太可能的二人組的獲勝機率比純AI隊友組合的勝率高出5%。
在其人工智慧擊敗眾多人類頂尖高手後,DeepMind已經轉向更雄心勃勃的東西。DeepMind已開始使用了強化學習來促進AI學習翫《雷神之錘3》(Quake III)的多人奪旗模式。
在經典射擊遊戲《雷神之錘3》的奪旗模式中,AI需要分析透過顯示器電纜傳送的原始影象,以確定規則是什麼以及如何獲勝。為了與“普通玩家”進行競賽,它需要進行14萬場遊戲;而為了與“老手”進行競賽,AI需要進行17.5萬場遊戲,當研究人員讓AI遊玩了45萬場多人模式後,AI明顯優於所有人類玩家。
AI針對隨機生成的地圖進行了培訓,以防止其採用特定地圖獨有的策略。在整個過程中,人類隊伍比AI對平均少了16面旗幟,一對專業遊戲玩家在練習12小時後與AI進行競賽時,勝率只有25%的時間內擊敗AI。比賽中的四十個人類玩家認為AI比其他人類玩家更合作。
研究人員在AI中構建了兩個層,即負責元策略的“思考”層以及將這些策略解釋為特定操作的“執行”層。它開發了專門的神經元,用於檢查它是否有旗幟,隊友是否有旗幟,是否有敵人在哪裡,以及敵人的基地在哪裡。
對於比賽,研究人員將AI的反應時間增加了267毫秒,這是他們計算的平均玩家的反應時間,並且它對AI的表現幾乎沒有影響。與人類50%的準確率相比,人工智慧最初的準確率為80%。
研究中最有趣的發現之一是最好的隊友組合是一個人類和一個人工智慧。儘管不能像一對人類那樣進行交流,也沒有像人工智慧預期的那樣預測對方的動作,但不太可能的二人組的獲勝機率比純AI隊友組合的勝率高出5%。