-
1 # 弈鹿圍棋
-
2 # 聶衛平
事實上,阿爾法狗和阿爾法狗左右互搏在“人機大戰”之前就有了,這並不是什麼新鮮事。在阿爾法狗一時找不到人類高手作為對手訓練後,阿爾法狗團隊萌發了“狗狗對戰”的想法,付諸實施後,效果還很不錯。阿爾法狗就是這樣訓練出來的,後來的阿爾法元也是透過左右互搏訓練出來的。
“人機大戰”後不久,AlphaGo團隊在網上公佈了其左右互搏的50盤棋譜,這些棋譜應該是阿爾法狗團隊經過挑選後公佈出來的,是否具備統計學上的意義留待這方面的專家去探討,但僅僅看這50盤棋譜,就覺得阿爾法狗的實力太可怕了!完全超出了當今棋譜範疇,一開始起很多著法用離經叛道來形容都不夠,簡直就是來自外星人的圍棋下法。時越九段將其稱為“來自未來的著法”,我也深有同感,因為以我們現在人類對圍棋的理解、思維,來看這50盤棋譜的話,老實話很難看懂!很多著法都是離經叛道、不可理喻的。
比如說圖一開局階段,阿爾法狗白10先在右下小目上碰一下後脫先,然後白12又跑到棋盤下邊黑7上又碰一下,白10、白16與白12、白14之間到底存在著什麼樣的必然聯絡?阿爾法狗應該已經算清楚了,它認為必須這麼下,問題是,人類棋手要是這麼下的話,肯定會被認為不正常,完全是不會下圍棋,在胡搞。
人類無法與阿爾法狗進行對話,如果能的話,很想問問阿爾法狗,類似白10至白16這樣的著法之間到底存在著怎樣的必然性?而且,類似這樣的著法比比皆是,人類要是去理解的話,必須將腦袋挖一個洞不可。
-
3 # 太平洋電腦網
如果兩隻”狗“是一樣的,那麼肯定平分秋色。但是如果兩隻“狗”不一樣,那就精彩了。
10月份,《自然》雜誌刊登了谷歌DeepMind團隊的新成果,名為AlphaZero(暫譯:阿爾法元)的機器系統僅訓練3天就戰勝了AlphaGo Lee,比分100:0,後者就是戰敗李世石的那套。
對,阿爾法狗不停在進步。而且更可怕的事,Alpha Zero的設計理念和系統配置完全和Lee/Master不同,它不依託於人類的先驗成果,完全靠自我對弈學習下棋。此前,Lee/Master都是用上千盤人類業餘和專業棋手的棋譜進行訓練。
DeepMind聯合創始人兼CEO 、AlphaGo之父戴密斯·哈薩比斯(Demis Hassabis)和AlphaGo團隊負責人大衛·席爾瓦(Dave Sliver) 將AlphaGo Zero的成功歸咎於強化學習的升級。
對比與李世石對戰的AlphaGo,AlphaGo Zero更多依靠強化學習演算法,而不是人類資料的方法,也引發了演算法和資料之間哪個更重要的討論。在Julian Schrittwieser看來,目前演算法仍然比資料更重要,只要看看 AlphaGo Zero 比之前幾個版本的訓練效率高出那麼多就能理解。但這也表明,未來,資料在訓練效率上的重要性還會有很大的提升。
只能這樣說,科技的力量是充滿未知但是同時又是可怕的。
回覆列表
沒有啥稀罕的,互有勝負。新版本的阿發狗就是透過左右互搏來不斷提高自己的技能的,完全沒有采用人類的棋譜。據說透過左右互搏的方式,兩個阿爾法狗每天可以下一百萬盤!