阿爾法元無師自通卻完爆阿爾法狗，你怎麼看？

首頁>Club>y1個人的海枯石爛2021-01-07 16:01

阿爾法元無師自通卻完爆阿爾法狗，你怎麼看？

人工智慧領域又有巨大突破，DeepMind新一代的阿法元(AlphaGo Zero), 完全從零開始，不需要任何歷史棋譜的指引，更不需要參考人類任何的先驗知識，完全靠自己一個人強化學習（reinforcement learning）和參悟, ，棋藝增長遠超阿法狗，百戰百勝，擊潰阿法狗100-0。對於這件事你怎麼看？

回覆列表

1 # cnBeta

據外媒報道，由Google子公司DeepMind子公司研發的圍棋人工智慧程式AlphaGo(阿爾法狗)獲得了巨大的更新，使其變得比以往任何時候都更加智慧，而且可能更為複雜。在《自然》發表的一篇文章中，該公司透露最新版本的AI——AlphaGo Zero，不需要進行人力培訓，以使自己更好，甚至可以打敗自己的過去版本。
該公司表示，AlphaGo Zero的研發與其前身有很大不同。研究團隊不是根據已知的人類發展戰略使AI智慧化，而是經過短暫的訓練使軟體能夠輕鬆擊敗此前的版本。 AlphaGo Zero能不斷更新自己的遊戲知識，越來越好。

經過三天的不間斷比賽，Zero能夠擊敗去年已經戰勝人類圍棋世界冠軍的AlphaGo版本。事實上，AlphaGo Zero連續贏得了100場比賽，取得全勝戰績。

AlphaGo Zero的主要研發程式設計師David Silver在新聞釋出會上解釋說：“透過不使用人類資料 - 透過不以任何方式使用人力知識，我們實際上已經消除了人類知識的限制。因此，它能夠從第一原則創造知識。”

簡而言之，透過不試圖模仿最好的人類圍棋選手，AlphaGo Zero實際上消除了任何偏見或疏忽，從而創造出更為純粹的策略。

2 # 鎂客網

看到這個問題，只能說阿爾法元真的很強大，人工智慧真的很強大。作為工具，未來或者現在，人工智慧一定是人類的得力助手。

今天凌晨一點，《自然》雜誌社上一篇論文引起了廣泛關注，今年5月退役的AlphaGo現如今有了最強版AlphaGo Zero。AlphaGo可以打敗中國棋手柯潔，而AlphaGo Zero可以打敗AlphaGO。
最強版的AlphaGo ，其厲害之處在於，它可以“自學成才”。論文裡提到，阿爾法元（即AlphaGO Zero）沒有使用到任何人類圍棋資料，只是在自我博弈中學習了三天，就輕鬆擊敗了AlphaGo。而經過40天的訓練後，它擊敗了“Master”版本的AlphaGo（與柯潔對戰的版本）。

雖然現在阿爾法元只是用在下圍棋上，不過論文中也表示，人工智慧將成為創造力高於人類的存在，並幫助我們解決人類面臨的一些最重要的挑戰。一些類似圍棋的技術，比如說，蛋白質摺疊、減少能源消耗或尋找革命性的新材料等問題，將得到解決。
3 # 晴月浩新雪

從人工智慧研究上說，deepmind用優雅的方式彪悍的證明，人工智慧可以從嬰兒般的一張白紙開始，不利用任何領域知識或手工特徵輸入而只依賴增強學習，在類似圍棋這樣的非常困難的任務上（即需要精確又需要前瞻預測，而且搜尋空間近乎無窮大），達到乃至超越人類專家的水平。而且network結構確如大家預測一樣是resnet，但其結構令人難以置信的簡單樸素，跟前代alpha go比很有化繁為簡、返璞歸真的味道……
從圍棋角度，人工智慧這次真的無限接近圍棋之神了。3個小時，就能從隨機走棋成為人類初學圍棋的樣子。10個小時，自己發現並學會人類已掌握的第一個定式。3天，共發現並學會5個人類已掌握的定式，並能把跟李世石對戰的alphago lee轟成100比0。40天，就能把跟柯潔對戰的近乎無敵的alphago master打殘成89比11，還不經意間暴露了alphago master的小秘密。

4 # 瀚海觀察

10月18日，《自然》雜誌網站公佈的論文顯示，此前戰勝人類圍棋世界冠軍的電腦程式AlphaGo的開發團隊又出力作——新程式AlphaGo Zero（阿爾法元）不依靠人類指導和經驗，僅憑自身演算法強化學習，就以100:0的戰績擊敗了AlphaGo（阿爾法狗）。

此訊息給世人帶來了不小的震動。此前被AlphaGo 擊敗的世界知名圍棋選手柯潔今早在社交平臺上表示：“一個純淨、純粹自我學習的AlphaGo是最強的……對於AlphaGo的自我進步來講……人類太多餘了。”AlphaGo Zero相比與AlphaGo 的更強大之處恰恰在於：“它再也不會受到人類經驗的限制，而是可以不斷向世界上最強的圍棋手——也就是它自己學習到非既定的能力。”
關於新版阿爾法狗的訊息一出，不禁讓人想到了最近《紐約客》的封面文章，描繪這樣一幅未來圖景：一個滿臉鬍鬚的年輕乞丐坐在未來的曼哈頓街上乞討，身旁的機器人向他手裡的杯子裡投擲螺絲和螺帽，他身旁的小狗也滿懷驚訝和擔憂地看著旁邊走過的機器狗。

幾乎已經不需要想象，人工智慧的發展速度將會遠超人類的發展速度，這個新版的阿爾法狗用3天的時間就走完了人類五千年的圍棋發展史，雖然圍棋被稱之為奇淫技巧，但是圍棋也被稱為最高智商的遊戲活動，在這樣的遊戲中人工智慧的發展讓人驚愕，更讓人害怕。

對於未來趨勢的判斷將會是這樣的：

一是人肉機器人將會很快被真正的機器人取代。隨著科技的高速發展，員工的工作速度更快、效率更高，工作環境也更健康，類似於富士康這樣的快速生產線實際上已經將人類淪為了人肉機器人，但是這些被高度控制的人肉機器人實際上也是會出錯的，現在最大的問題只是人類的使用成本還是比較低的，機器人的使用成本還是相對高昂的，然而隨著摩爾定律的作用，機器人的使用成本一定會快速下降，而隨著人口數量的減少，人類的成本卻在高速上升，所以未來被取代將會是必然。
二是低端勞動人口的收入會越來越低。根據麻省理工學院的著名經濟學家戴維·奧托爾的研究：“不是工作或者就業崗位本身快要沒有了，而是如果靠自身勞動，那些技能水平比較低的人可能就沒法掙到足夠收入，負擔得起像樣的生活。這點我們已經目睹了。”機器人的普及將會讓工人的工資縮水，讓工廠的就業崗位減少，讓求職者失去市場競爭的能力。

機器人要來搶飯碗了，你怎麼看？
5 # 柒捌壹陸肆零

其他行業怎麼樣不說，但以後讓孩子學圍棋的家長會越來越少，觀眾也會越來越少，圍棋會更加小眾和沒落，有人說了，下圍棋可以鍛鍊大腦等等列出很多好處，沒錯，但鍛鍊大腦的方式多了，除了這個目的之外，家長總有些功利性的，一個知道結局的故事很難勾起人們探索瞭解它的慾望

6 # 葉猛獁

在 DeepMind 公司發表在《自然》雜誌上那篇論文中，作者說：

“人工智慧的長期目標是開發出演算法，這種演算法能讓人工智慧從一張白紙開始起步，直到在它相應的領域內成長到超人的程度。”

現在看起來，AlphaGo Zero 在圍棋領域達到了這個目標。

之前和樊麾、李世乭下棋的 AlphaGo，採用的是監督式的深度學習網路方法，並且透過與自己對弈的強化學習來提升能力。
AlphaGo Zero 採用的只是強化學習演算法，只掌握了圍棋的基本規則，之後就透過不斷地試錯嘗試，最終在完全沒有人工參與、完全沒有借鑑人類智慧的情況下，在四十天的訓練後把上一代 AlphaGo 打了個100：0。

這件事最少告訴我們幾個事實：

1. 有效的演算法會讓特定的人工智慧更快地超越人類。也許人類之前積累的經驗和智慧會妨礙人工智慧自己從基礎開始推斷出最優方案的可能性。

2. 監督式學習在規則明確、資訊透明的問題解決中也許可以退休了。重點是規則明確、資訊透明——這樣的遊戲在人類社會中並不算多見；更多的是資訊不透明的遊戲。等什麼時候人工智慧在無人工參與的情況下，可以在《星際爭霸 II》裡打贏最強的人類選手，也許我們離人工智慧廣泛利用的時代才會更進一步。
3. 在找到了合適方法後，人工智慧會以人們想象不到的速度飛快“進化”。人類積累了一年多年的智慧和經驗，在幾天內就會被人工智慧重新發現並且熟練利用，最終下出人類可能無法看懂的棋來。設想，若是有一個通用人工智慧最終面世，也許在剛出現的時候只有類似貓的智力，在過了相當長一段時間才能達到人類兒童的智力水平——然後，會在眨眼之間超過最聰明的人類，然後變成人類無法理解的智慧。這種進化速度會帶來無盡的想象空間。
7 # Kaiser

《不是人工智慧，是智慧機器》

AlphaGo Zero，和之前的AlphaGo版本，如AlphaGo Lee（對弈李世乭的版本），或AlphaGo Master（對弈柯潔）有根本區別。

之前的迭代只能說是“最佳化”(Optimization)，而AlphaGo Zero的誕生，可以說是“進化”(Evolution)。
為方便閱讀，以下"AlphaGo"專指從前的版本，"Zero"指代AlphaGo Zero。
1. 真正的零

AlphaGO之前的學習路徑是：

輸入棋譜 ==> 挖掘策略 ==> 自我對弈 ==> 最佳化迭代

我們常說人工智慧，人工智慧，無論怎麼智慧，裡面終究是有“人工”二字，那麼人工究竟做了什麼呢？就是資料和訓練。對於美顏相機，資料是影象；對於對話機器人，資料是文字；而對於圍棋AI，海量的棋譜就是資料。

再說訓練，當然不是讓人真的去“教”AI怎麼下棋（也教不了），而是手動調整模型引數，讓AlphaGo具有更高的學習能力。這個“手動調參”其實像個黑盒有點玄學，業內也經常戲稱為“煉丹”。

因為有棋譜，那麼AlphaGo最初的“輸入”就是圍棋的具體戰術，是定式開局手筋打劫徵子，他是站在棋魂們的肩膀上成長起來的，是五絕全真七子江南七怪聯合調教出來的郭靖。
而Zero是白手起家的，被扔在一個19x19的荒島上，唯一知道的就是有黑白兩種棋子，頭腦中想起一個聲音：圍住對方。

在三個小時之內，Zero還只知道單純地圍子，毫無戰略戰術可言。

Zero的學習路線只能是：

嘗試策略 ==> 自我對弈 ==> 最佳化迭代

AlphaGo和 Zero的區別，是人民幣玩家和未充錢玩家的區別。

2. 增強學習

首先需要明確幾個概念：人工智慧、機器學習、深度學習。這幾個詞每天不絕於耳，往往同框出鏡，但不是並列關係。

“人工智慧”是我們想實現的目標。

工業革命讓機器代替或輔助人類進行生產：轉化能源的形式，改變材料的性質，高效地專遞資訊等；而在更早之前，人類馴化牲畜也是同樣的目的，用動物代替或輔助人類耕種、狩獵、採集。
所以當很多人問起，“AI會讓人失業嗎？”，我都會舉這個例子：耕牛讓農民失業了嗎？沒有，只是解放了自己出力犁地的人，“農民”這個職業仍然存在，只是技能由“犁地”變成了“訓牛”。

那麼人工智慧要代替或輔助地球人做什麼呢？那就是決策，甚至是，思考。

“機器學習”是實現目標的方法。

這裡說的機器學習，並非廣義地“讓機器學會什麼”，而是Machine Learning這種方法。機器學習來自“統計學習”(Statistical Learning)，根本上是從資料中基於機率統計、資訊熵來挖掘規律，與前些年的熱點詞彙“大資料”、“資料探勘”緊密相連。

為什麼機器學習的存在感如此之強呢？無他，好用而已。人類對於創造智慧的嘗試從未停止，更不是計算機出現以後的事情，從蓮藕中滿血復活的哪吒，到屍塊拼成的弗蘭肯斯坦，都是對“人工智慧”的想象與求索，甚至穿著清朝官袍的殭屍，也是非常理想的智慧機器模型。
而“深度學習”原本是機器學習的眾多演算法之一的“神經網路”，接觸過數學建模競賽的同學對此應該並不陌生。而隨著近年計算資源的效能與價格變化，潛力被不斷挖掘出來，2012年至今成為AI界的顯學。

有監督學習

無監督學習

增強學習

2.1 有監督學習

這是最好理解的一類，比如我要給資料樣本進行分類，看一張病歷判斷此人是否有病，那麼在訓練過程中，會不斷地告訴每一次分類結果：對，還是不對。

另外一種就是迴歸分析，中學裡的“線性規劃”、“最小二乘法”就是最簡單的表現形式。

2.2 無監督學習

也就是常說的“資料驅動”，當我的網站積累了大量的使用者訪問資料，然後我要給使用者畫像，看看有哪幾種典型使用者。那麼問題來了，我事先並不知道存在哪幾種使用者，那就只能模型自己去摸索如何根據資料，儘量把典型的使用者聚類了。
2.3 增強學習

回顧上面兩種“學習”，你會發現他們雖然能做的事情很多，但沒法學會下棋。因為棋局的判斷、落子的策略，無法用“對不對”（分類的二元判斷），“遠不遠”（聚類的距離判斷）或“差多少”（迴歸的損失函式）來衡量。

回想我們小時候怎麼學會騎腳踏車，每前進一小步，就會得到家長的鼓勵支援(support)，我們稱+1s；如果能連著騎出一段路，家長的支援會更加熱烈，這時就會+2s甚至更多。而有時我們會在陰溝裡翻船，因載具不受控制而沮喪(-1s)，因車子傾覆而受傷(-2s)。每一次的動作都在與環境產生互動，並受到來自外界的激勵，從而調整自己的動作狀態，就這樣一點點變成了老司機。

AlphaGo就是這樣學會下棋的。
3. 成也蕭何

對於AlphaGo，人類用棋譜把他附上了馬，但同時也裹上了足。從棋譜資料中開始學習，然後自我對弈擴充棋譜容量，這其中的基本功仍然是出自人的套路。

而Zero是光腚落在棋盤上的，除了最基本的遊戲規則，他是一張白紙，一個know nothing的﹝神經網路¹﹞，這個神經網路用於預測局面和判斷勝負，是Zero的第一個零件。

由於缺少先驗知識和現場指導，Zero的自我對弈像是菜雞互啄，剛開始下出來可能跟五子棋一樣。這些很菜的對局仍然會被保留下來，以供不斷地覆盤反思，積累每一步落子的參考，這裡用到的是﹝搜尋演算法﹞。

﹝神經網路¹﹞和﹝搜尋演算法﹞就組成了初代目Zero，其中﹝神經網路﹞也在對弈中不斷地最佳化，成為更強的﹝神經網路²﹞。
﹝神經網路²﹞與﹝搜尋演算法﹞再次碰撞，組成了二代目Zero，實現了Zero的進化。這個過程週而復始，﹝神經網路﹞的最佳化帶來Zero的進化，最終在21天裡從入門到精通，對當年的AlphaGo取得了100:0的完勝。

Zero相比於AlphaGo的另一大特點是，神經網路的合併：AlphaGo始終存在兩套神經網路，一個策略網路(Policy Network)決策行動，一個價值網路(Value Network）判斷贏面。而Zero將此合二為一，更少的神經網路，降低了進化的時間與計算成本，不僅智慧，而且環保。

4. 智慧機器

在本文的開頭我們就說過，人工智慧，人工智慧(Artificial Intelligence, AI)，人工的作用還是不可替代的，集中體現在資料和訓練上。
而Zero全程都被丟在一個三不管地帶，連此前被認為是“人工智慧燃料”的訓練資料都沒有，自己動手豐衣足食。而我們人類的存在，似乎只是始作俑者，按下啟動按鈕。所以我認為，Zero已經在逐漸脫離“人工智慧”的人工束縛，真正成為“智慧機器”(Intelligent Machine, IM)。

對於業界來說，一是更多的關注會投入到先進的演算法上，特別是增強學習和搜尋演算法。二來，之前已經逐步降溫的“大資料”等概念，只怕會涼的更快。

最後，期待Zero帶來更多的奇蹟。

8 # 網際網路指北

從1997年下國際象棋的深藍，到今天下圍棋的的Alpha Go，人機大戰20年進化史裡，智慧機器人被賦予的除了超強的記憶能力、邏輯思維能力，還有自主學習能力、創造力甚至“個性”。

在複雜程度上，國際象棋和圍棋絕對不屬於一個量級。象棋從有到無，每一個子都有固定走法，變數較少；圍棋像是在模擬宇宙的形成，這是一個從無到有的過程，棋盤上361個交叉點，落子越來越多，越來越複雜，它的變化趨勢無法進行預測。
無論是20年前被輸入兩百多萬局國際象棋比賽的深藍，還是透過“深度學習”大敗柯潔的Alpha GO，這些都是基於人類在棋壇的經驗所取得的勝利。

與深藍和Alpha GO不同的是，最近Deep Mind開發的新一代人工智慧阿爾法元，不再採用人類的先驗經驗，而是自學成才，3天走完人類幾千年的圍棋歷史，並以100:0的成績完爆Alpha GO。當然，棋盤上的輸贏已經不再那麼重要了，科技進步下，最終的勝利者都是人。

同樣的，人工智慧的良性發展所帶來的最終受益者也是人。2016年3月，谷歌Deep Mind執行長德米斯•哈薩比斯表示， Alpha Go未來的發展方向是要和醫療、機器人等進行結合。如果這個方向真的走得通，那麼臨床診斷輔助醫療服務、大資料醫療、基因測序等等都將不再是噱頭，而是未來。
人們對於科幻小說、電影的恐懼由來已久，深層次的原因並不是真的害怕這些小說或電影，而是源於對未知事物的恐懼。這種人類與生俱來的恐懼，才是“人工智慧威脅論”可以廣泛傳播的根本原因。

對於未知的事物，人們往往會心生畏懼，望而卻步。早在去年，霍金就發出警告：”AI可能會成為人類歷史上最大的災難。如果管理不善，會思考的機器可能會為文明劃上句號”。一時間，“人工智慧威脅論”甚囂塵上，被媒體炒的沸沸揚揚，媒體為什麼要往恐懼威脅人類方向引導，無非是為了刺激傳播。

關於人工智慧未來影響的辯論也是不斷升級。以馬斯克和扎克伯格為代表的悲觀派和樂觀派各執一詞，各自為陣，事實上，他們可能不是真的有興趣去探討科技，而是在為公司未來的戰略決策做鋪墊，需要熱度來讓公司下一個計劃實現起來，事半功倍。換句話說，都是從自身利益出發提出的觀點。
人工智慧的發展如日中天，隨著人工智慧迎來第三次高速發展浪潮，人工智慧技術取得了顯著進步，在無人駕駛、影象識別、語音互動等領域得到了廣泛的應用，這將為新一代人工智慧技術開啟無窮的空間。從李彥宏乘坐的自動駕駛汽車到開發戴姆勒開發的機場掃雪車，從阿里的圖片識別到直播的線上識別稽核，從siri到蟲洞，人工智慧正在慢慢滲透進我們的生活。

面對人工智慧的興起與發展，人類不斷創造出比自己更聰明的東西。作為一個普通人，每一個人都應當做好終身學習的準備，因為隨時會面臨新的就業機會，如果不能主動進行學習，那麼到了人工智慧普及的那一天，就是你失業的那一天，只有迅速適應時代的發展變化，才不會在將來的某一天被Alpha GO們取代，從而喪失自我價值。
9 # 弈深求道

因為阿爾法元完全從零開始，沒有任何人類經驗和既有成見，任何招法它都可以窮盡運算對比從而得出最優解。以此所得自然要優於有人類經驗的演算法和感悟。一言以敝之，計算才是圍棋的根本！什麼感覺在窮盡計算之後都是未必可靠的！！

10 # 盛景商業評論

去年，有個小孩讀遍人世所有的棋譜，辛勤打譜，苦思冥想，棋藝精進，打敗世界冠軍李世石，從此人間無敵手。他的名字叫阿爾法狗。

今年，他的弟弟只靠一副棋盤和黑白兩子，沒看過一個棋譜，也沒有一個人指點，從零開始，自娛自樂，自己參悟，100-0打敗哥哥阿爾法狗。他的名字叫阿爾法元。
谷歌DeepMind團隊最新的研究成果AlphaGo Zero：從空白狀態學起，在無任何人類輸入的條件下，它能夠迅速自學圍棋，並以100:0的戰績擊敗“前輩”。

今年，舊版AlphaGo與圍棋第一人柯潔進行三番大戰，最終柯潔以0比3的總比分落敗。但其棋藝的精進，是建立在計算機透過海量的歷史棋譜學習參悟人類棋藝的基礎之上，進而自我訓練，實現超越。

（柯潔對AlphaGo Zero問世的微博迴應）

可是今天，我們發現，人類其實把AlphaGo教壞了！ 新一代的AlphaGo Zero經過3天的訓練，就以100：0的比分完勝對陣李世石的AlphaGo。

達到這樣一個水準，AlphaGo Zero只需要在4個TPU上，花三天時間，自己左右互搏490萬棋局。而它的哥哥AlphaGo，需要在48個TPU上，花幾個月的時間，學習三千萬棋局，才打敗人類。
AlphaGo團隊負責人DeepMind David Silver 博士迴應了AlphaGo Zero如何練成的：

與學習大量人類棋譜起步的前代AlphaGo不同，AlphaGo Zero是從“嬰兒般的白紙”開始，透過3天數百萬盤自我對弈，走完了人類千年的圍棋歷史，並探索出了不少橫空出世的招法。

AlphaGo Zero之所以能當自己的老師，是用了一種叫強化學習的新模式。系統從一個對圍棋一無所知的神經網路開始，將該神經網路和一個強力搜尋演算法結合，自我對弈。在對弈過程中，神經網路不斷調整、升級，預測每一步落子和最終的勝利者。

AlphaGo Zero相較前代還有幾點明顯的差別：

1、AlphaGo Zero僅用棋盤上的黑白子作為輸入，而前代則包括了小部分人工設計的特徵輸入。
2、AlphaGo Zero僅用了單一的神經網路。在此前的版本中，AlphaGo用到了“策略網路”來選擇下一步棋的走法，以及使用“價值網路”來預測每一步棋後的贏家。而在新的版本中，這兩個神經網絡合二為一，從而讓它能得到更高效的訓練和評估。

3、AlphaGo Zero並不使用快速、隨機的走子方法。在此前的版本中，AlphaGo用的是快速走子方法，來預測哪個玩家會從當前的局面中贏得比賽。相反，新版本依靠的是其高質量的神經網路來評估下棋的局勢。

所有這些差異，都提高了系統的表現，使其更為普適。不過，是演算法上的變化使得系統更為強大和高效。

這些創造性的時刻給了我們信心：人工智慧會成為人類智慧的增強器，幫助我們解決人類正在面臨的一些嚴峻挑戰。
儘管才剛剛發展起來，AlphaGo Zero已經走出了通向上述目標的關鍵一步。如果類似的技術可以應用在其他結構性問題，比如蛋白質摺疊、減少能耗和尋找新材料上，就能創造出有益於社會的突破。

劇多

阿爾法元無師自通卻完爆阿爾法狗，你怎麼看？

相關內容