阿爾法圍棋用到了很多新技術,如神經網路、深度學習、蒙特卡洛樹搜尋法等,使其實力有了實質性飛躍。美國臉書公司“黑暗森林”圍棋軟體的開發者田淵棟在網上發表分析文章說,阿爾法圍棋系統主要由幾個部分組成:一、策略網路(Policy Network),給定當前局面,預測並採樣下一步的走棋;二、快速走子(Fast rollout),目標和策略網路一樣,但在適當犧牲走棋品質的條件下,速度要比策略網路快1000倍;三、價值網路(Value Network),給定當前局面,估計是白勝概率大還是黑勝概率大;四、蒙特卡洛樹搜尋(Monte Carlo Tree Search),把以上這三個部分連起來,形成一個完整的系統。
阿爾法圍棋(AlphaGo)是第一個擊敗人類職業圍棋選手、第一個戰勝圍棋世界冠軍的人工智慧機器人,由谷歌(Google)旗下DeepMind公司戴密斯·哈薩比斯領銜的團隊開發。其主要工作原理是“深度學習”。
2016年3月,阿爾法圍棋與圍棋世界冠軍、職業九段棋手李世石進行圍棋人機大戰,以4比1的總比分獲勝;2016年末2017年初,該程式在中國棋類網站上以“大師”(Master)為註冊賬號與中日韓數十位圍棋高手進行快棋對決,連續60局無一敗績;2017年5月,在中國烏鎮圍棋峰會上,它與排名世界第一的世界圍棋冠軍柯潔對戰,以3比0的總比分獲勝。圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平,在GoRatings網站公佈的世界職業圍棋排名中,其等級分曾超過排名人類第一的棋手柯潔。
2017年5月27日,在柯潔與阿爾法圍棋的人機大戰之後,阿爾法圍棋團隊宣佈阿爾法圍棋將不再參加圍棋比賽。2017年10月18日,DeepMind團隊公佈了最強版阿爾法圍棋,代號AlphaGo Zero。
阿爾法圍棋用到了很多新技術,如神經網路、深度學習、蒙特卡洛樹搜尋法等,使其實力有了實質性飛躍。美國臉書公司“黑暗森林”圍棋軟體的開發者田淵棟在網上發表分析文章說,阿爾法圍棋系統主要由幾個部分組成:一、策略網路(Policy Network),給定當前局面,預測並採樣下一步的走棋;二、快速走子(Fast rollout),目標和策略網路一樣,但在適當犧牲走棋品質的條件下,速度要比策略網路快1000倍;三、價值網路(Value Network),給定當前局面,估計是白勝概率大還是黑勝概率大;四、蒙特卡洛樹搜尋(Monte Carlo Tree Search),把以上這三個部分連起來,形成一個完整的系統。
深度學習系統目前也存在缺陷,遇強則強,遇弱則弱,這是機器學習演算法所決定的。至於它能算到多少步,這就看計算機的算力了!