作為 AlphaGo 的最新迭代,DeepMind 又在 11 月 6 日發表的《科學》(Science)論文中,隆重介紹了 AlphaZero 。
2017 年的時候,前 AI 冠軍 AlphaGo 正式退休,但在進一步修補之後,AlphaZero 又達到了新的頂峰。
AlphaZero 是一款能夠從頭學習圍棋、象棋等棋子游戲的新型人工智慧平臺。在三款棋類比賽中,AlphaZero 將三款 AI 都挑落下馬。
● Stockfish:國際象棋 AI 世界冠軍;
● elmo:2017 年度世界計算機將棋錦標賽冠軍;
● AlphaGo Zero:DeepMind 自家的圍棋 AI,被譽為史上最強選手。
在僅僅獲知有關遊戲基本規則的情況下,AlphaZero 在成為人工智慧大師之前,會先自己機型數百萬場的對抗練習。
該 AI 初期會實施隨機戰術來取得勝利,但後續會透過‘強化學習’來試錯,以逐步瞭解哪些策略是最有效的。
實測國際象棋需要 9 小時、將棋 12 小時、圍棋 13 天,涉及 5000 個張量處理單元(TPU)。
作為參考,一套 TPU 每天可以處理超過 Google Photos 中的 1 億+照片,所以 AlphaZero 對硬體處理效能的要求還是比較高的。
【閉關學習結束後,AlphaZero 就可以大殺四方了】
這項研究的獨特之處在於,研究團隊將機器學習演算法、與蒙特卡羅樹(MCTS)的“搜尋方法”結合到了一塊。
這是 Go 圍棋 AI 決定下一步行動所採用的方式,這次 DeepMind 團隊在國際象棋和將棋 AI 上也套用了同樣的機制,首次展示了該方法適用於其它複雜的遊戲測試。
對於人類國際象棋選手來說,AlphaZero 是極具吸引力的。你可以在與機器對戰時,見識到此前從未遇到過的策略、以及一些新穎的想法。
其咄咄逼人的風格、以及高度動態的應變策略,足以讓 Matthew Sadler 之類的國際象棋大師感到驚訝(其在 DeepMind 部落格上有所表述)。
有關這項研究的詳情,已經發表在近日出版的《科學》(Science)期刊上。原標題為:
《A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play》
《一種通用的強化學習演算法,可自學成為國際象棋、將棋、圍棋大師》
作為 AlphaGo 的最新迭代,DeepMind 又在 11 月 6 日發表的《科學》(Science)論文中,隆重介紹了 AlphaZero 。
作為谷歌母公司 Alphabet 旗下的英華人工智慧子公司,DeepMind 多年來一直致力於改進 Go AI 。2017 年的時候,前 AI 冠軍 AlphaGo 正式退休,但在進一步修補之後,AlphaZero 又達到了新的頂峰。
AlphaZero 是一款能夠從頭學習圍棋、象棋等棋子游戲的新型人工智慧平臺。在三款棋類比賽中,AlphaZero 將三款 AI 都挑落下馬。
● Stockfish:國際象棋 AI 世界冠軍;
● elmo:2017 年度世界計算機將棋錦標賽冠軍;
● AlphaGo Zero:DeepMind 自家的圍棋 AI,被譽為史上最強選手。
在僅僅獲知有關遊戲基本規則的情況下,AlphaZero 在成為人工智慧大師之前,會先自己機型數百萬場的對抗練習。
該 AI 初期會實施隨機戰術來取得勝利,但後續會透過‘強化學習’來試錯,以逐步瞭解哪些策略是最有效的。
實測國際象棋需要 9 小時、將棋 12 小時、圍棋 13 天,涉及 5000 個張量處理單元(TPU)。
作為參考,一套 TPU 每天可以處理超過 Google Photos 中的 1 億+照片,所以 AlphaZero 對硬體處理效能的要求還是比較高的。
【閉關學習結束後,AlphaZero 就可以大殺四方了】
這項研究的獨特之處在於,研究團隊將機器學習演算法、與蒙特卡羅樹(MCTS)的“搜尋方法”結合到了一塊。
這是 Go 圍棋 AI 決定下一步行動所採用的方式,這次 DeepMind 團隊在國際象棋和將棋 AI 上也套用了同樣的機制,首次展示了該方法適用於其它複雜的遊戲測試。
對於人類國際象棋選手來說,AlphaZero 是極具吸引力的。你可以在與機器對戰時,見識到此前從未遇到過的策略、以及一些新穎的想法。
其咄咄逼人的風格、以及高度動態的應變策略,足以讓 Matthew Sadler 之類的國際象棋大師感到驚訝(其在 DeepMind 部落格上有所表述)。
有關這項研究的詳情,已經發表在近日出版的《科學》(Science)期刊上。原標題為:
《A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play》
《一種通用的強化學習演算法,可自學成為國際象棋、將棋、圍棋大師》