作為AlphaGo AI的最新版本，AlphaZero能否實現三棋通殺？

首頁>Club>2021-02-14 09:21

作為AlphaGo AI的最新版本，AlphaZero能否實現三棋通殺？

回覆列表

1 # cnBeta

作為 AlphaGo 的最新迭代，DeepMind 又在 11 月 6 日發表的《科學》（Science）論文中，隆重介紹了 AlphaZero 。
作為谷歌母公司 Alphabet 旗下的英華人工智慧子公司，DeepMind 多年來一直致力於改進 Go AI 。
2017 年的時候，前 AI 冠軍 AlphaGo 正式退休，但在進一步修補之後，AlphaZero 又達到了新的頂峰。
AlphaZero 是一款能夠從頭學習圍棋、象棋等棋子游戲的新型人工智慧平臺。在三款棋類比賽中，AlphaZero 將三款 AI 都挑落下馬。

● Stockfish：國際象棋 AI 世界冠軍；

● elmo：2017 年度世界計算機將棋錦標賽冠軍；

● AlphaGo Zero：DeepMind 自家的圍棋 AI，被譽為史上最強選手。

在僅僅獲知有關遊戲基本規則的情況下，AlphaZero 在成為人工智慧大師之前，會先自己機型數百萬場的對抗練習。

該 AI 初期會實施隨機戰術來取得勝利，但後續會透過‘強化學習’來試錯，以逐步瞭解哪些策略是最有效的。
實測國際象棋需要 9 小時、將棋 12 小時、圍棋 13 天，涉及 5000 個張量處理單元（TPU）。

作為參考，一套 TPU 每天可以處理超過 Google Photos 中的 1 億+照片，所以 AlphaZero 對硬體處理效能的要求還是比較高的。

【閉關學習結束後，AlphaZero 就可以大殺四方了】

這項研究的獨特之處在於，研究團隊將機器學習演算法、與蒙特卡羅樹（MCTS）的“搜尋方法”結合到了一塊。

這是 Go 圍棋 AI 決定下一步行動所採用的方式，這次 DeepMind 團隊在國際象棋和將棋 AI 上也套用了同樣的機制，首次展示了該方法適用於其它複雜的遊戲測試。
對於人類國際象棋選手來說，AlphaZero 是極具吸引力的。你可以在與機器對戰時，見識到此前從未遇到過的策略、以及一些新穎的想法。

其咄咄逼人的風格、以及高度動態的應變策略，足以讓 Matthew Sadler 之類的國際象棋大師感到驚訝（其在 DeepMind 部落格上有所表述）。

有關這項研究的詳情，已經發表在近日出版的《科學》（Science）期刊上。原標題為：

《A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play》
《一種通用的強化學習演算法，可自學成為國際象棋、將棋、圍棋大師》

∧ 中秋節和大豐收的關聯？

∨ 天然氣熱水器可以一直開著嗎？

熱門排行

劇多

作為AlphaGo AI的最新版本，AlphaZero能否實現三棋通殺？