阿爾法元自學成才，以100比0完爆阿爾法狗，你怎麼看？

首頁>Club>空悟無心2021-01-06 11:13

阿爾法元自學成才，以100比0完爆阿爾法狗，你怎麼看？

10月19日訊息，據國外媒體報道，谷歌旗下人工智慧公司DeepMind新開發的AlphaGo Zero自學成才，以100比0戰績擊敗上代AlphaGo。人工智慧可擺脫人類進行知識學習，你怎麼看？

回覆列表

1 # 臨沂通達電腦

技術在進步，人工智慧同樣在進步，科幻片慢慢變成現實，這就是進化。說不定以後電子人也會變成現實，想多了可怕，活在當下(*^ω^*)

2 # 風雲學會陳經

非常令人震驚的進展！2016年3月4:1戰勝李世石之後，Deepmind就放出風聲，要讓AlphaGo從零知識開始學習下圍棋，當時讓人很有興趣。這種完全靠自學習，不學習人類棋譜的AI，在學成以後會如何下圍棋？會不會從天元開始下？能達到什麼樣的實力？肯定非常有趣。

所謂零知識自學習，就是一開始就隨機扔子，就如上圖這樣黑白等於是瞎下。從這種隨機策略開始，慢慢改進，而不是學習人類的棋譜先來個策略網路一開始就下得象模象樣。
但是後來這個零知識自學習的事一直沒下文。到2017年5月烏鎮3:0戰勝柯潔時，中間有研討會，David Silver出來講了不少，也完全沒有提這個。我還寫文章，說零知識自學習可能失敗了，陷入區域性陷阱棋力並不太高。特別是2017年8月AlphaGo打星際的論文出來，從0知識開始學習，但是能力非常差，連暴雪最弱的AI都打不過，也不會造兵，更是讓人覺得零知識自學習可能不行，人類的先驗知識應該還是挺重要的。

但是2017年10月18日Deepmind第二篇AlphaGo論文《Mastering the Game of Go without Human Knowledge》出來了！論文給出了出乎我的預料的結果：

1. 從0知識開始學習，是可以訓練成功的！這個成功的程度是”目前所有Alphago版本中最厲害“。100:0戰勝AlphaGo-Lee版本，90%勝率勝Master版本（也就是戰勝柯潔的那個）。但是還沒有”天下無敵“，還是有一定機率輸給Master，等級分領先幅度還不算大。下圖右是等級分數值。
3. 讓人類還算欣慰的是，雖然AlphaGo Zero不需要人類棋譜，但是訓練出來下得還是象人的。論文給出AlphaGo Zero的83局棋譜，沒訓練一會就下得有模有樣了。也不是從中腹天元開始下，而是象人類一樣先佔邊角。這說明人類的這些行棋方向還不算離譜。實際這也早有徵兆，幾個圍棋AI都這樣，如果一開始不下角部，下在中腹或者邊上，給出的勝率就會下降。

4. 雖然Alphago Zero下得象人，但是很多招為什麼這麼下，連高手都應該是看不懂了。它到了什麼境界，人類還需要領會。

從哲學意義上來說，這說明圍棋這種人類看上去很複雜的遊戲，在AI看來卻是簡單的。因為圍棋的規則與目標是明確的，甚至是最簡單的，圍棋幾乎是規則最簡單的遊戲，只需要兩個行棋規則：氣盡提子，禁止全同。勝負規則，也是行棋規則自然出來的，終局數子。
圍棋的規則，讓AI可以不需要人類，就判定棋局的結果，這樣就完全不需要人類干預進行自學習了。學名叫“無監督”。也就是說圍棋是個完全客觀的遊戲。而人類在這種客觀遊戲中，確實在幾百上千年中加入了不少主觀的東西，各種“定式”、“趣向”、“價值判斷”，這都是非自然的，肯定有不少錯誤。人類的經驗，對AI的自學習來說，到很高的水平上，應該反而是障礙了。

AlphaGo Zero說明，對於完全客觀的東西，人類的主觀經驗很可能是有錯的，要勇敢地懷疑與挑戰。當然也有不少問題，是依賴人的主觀判斷的，那對AI又是不同的，需要“監督”，如識別文字。
3 # 科學地搖尾巴

1996年，IBM公司的深藍戰勝國際象棋特級大師卡斯帕羅夫。1996年距今已經二十多年過去了。國際象棋過得還好嗎？資料調查顯示：過得還蠻不錯。調查機構YouGov和AGON合作的，針對美國、英國、德國、俄國和印度的調查估測，有約6億民眾在其一生中下過國際象棋。在美國，有約12%，在俄國，有約43%的人口是活躍的國際象棋棋手。這樣的資料並不難理解：科技的進步使得學習國際象棋、線上尋找國際象棋棋友等都變得更便捷，這也吸引更多人進入國際象棋領域。
有些人可能想說，衡量一個領域真正的活躍度和價值的標準是其商業價值。根據Chess.com的統計，在1996年以後，國際級別的國際象棋大賽的高階獎金維持了一百萬到二百萬美金的水平，並沒有出現缺乏關注、贊助商走人等等問題。

網路上一直有一個笑談，說發明了汽車以後，人類還在訓練和競賽跑步。技術超越人類的身體和認知能力是一件很令人振奮的事情，但是這不意味著技術可以取代我們健身、娛樂、競爭等等的需要。從這個角度說，技術能夠戰勝人類棋手不一定意味著圍棋“已死”。相反，爭議和競爭，特別是“人類vs機器”這樣的競爭，實際上幫助圍棋在過去的兩年內獲得重大的關注。

4 # 弈鹿圍棋

這個再次證明了人腦的強大！因AlphaGo Zero是程式設計師開發出來的！程式設計師用演算法大腦打敗了人類職業棋手幾千年積累的經驗大腦！這足以說明，在任何需要計算的領域，一定有比經驗更可靠、更精確、價值最大的唯一選擇！

在圍棋開局和官子階段，人類幾千年的經驗可以大差不離的指導人類下棋，但圍棋中盤戰鬥，變化繁雜，人類往往因為計算不盡所有走法而選擇簡明的下法，殊不知，這些下法很可能不是價值最大的下法。而隨著電腦計算能力的飛速提高，以及深度學習演算法的持續改進，電腦終於在中盤戰鬥領域，可以遍歷所有的變化，最終超越了人類，超越了自己（zero打敗了go）！
目前在電腦圍棋領域，人腦和電腦的差異，已經沒人再奢望打敗電腦了！這種幻想就像人希望就靠兩條腿跑過汽車一樣！

不過，在這個人工智慧即將爆發的時代，就讓我們銘記——是圍棋，中國的圍棋，古老的圍棋，點燃了人工智慧這顆核彈的引爆劑！

孩子們，現在不學圍棋，更待何時？！人工智慧時代即將開啟，而圍棋，恰恰是開啟這扇大門的金鑰匙！
5 # 薄利軒1

阿發狗已經把圍棋高手全打敗了，阿發元一百比零打敗他哥阿發狗。在圍棋對弈方面，人類已經沒有信心挑戰人工智慧了。

計算機可以做很多人工智慧的工作，但是隻能模擬人的思維而不是創新發現。人工智慧雖然模擬能力能達到甚至超過專家水平，創新思維能力目前連中學生水平也達不到。依靠人工智慧代替人類發現新的東西，目前還沒有可能。
例如哥德巴赫猜想的證明。哥德巴赫猜想與圍棋對弈是不同的東西。圍棋對弈因為計算量大而複雜，採用深度學習，人工智慧，使原來難以實現計算的問題，有了可實現的計算方法。哥德巴赫猜想證明沒有完成是因為人們對素數的規律有些還沒有發現，人工智慧對此也無能為力。

人工智慧還是人創造的，再在人類已經認識清楚或比較清楚的東西，用人工智慧模仿人的思維方式可以解決問題，甚至超過人。因為任何人都可能出錯或失誤，但計算機可以不出錯。在人類沒有認識清楚的領域，人沒辦法解決的問題，也不可能設計出演算法。現實是越來越發現人類認識的不足，也就是說人類發現越來越多的有待認識的東西。雖然人類認識世界的的步伐加快了，但人類認識世界的的程序永遠不會完結。
創建於2017.10.19
編輯

6 # 天涯棋人

今天微信朋友群裡被阿爾法元刷屏了，實在是一個令人震驚的訊息。這兩年穀歌就沒消停過，2016年整出個阿爾法狗1.0版4比1擊敗李世石九段，讓棋界為之震驚；2016年底和2017年初，又整出個Maste,對人類高手60連勝，後來得知這是阿爾法狗2.0版；2017年5月第二次“人機大戰”，阿爾法狗2.0版3比0完勝柯潔九段。至此，“人機大戰”已經沒有任何意義，人類高手在阿爾法狗面前難求一勝。
但始料未及的是，谷歌又推出阿爾法元，而且，與阿爾法狗1.0版和2.0版不同的是，阿爾法元完全不靠人類棋手的棋譜學棋、成長，只需懂得圍棋規則後即在短短時間裡成長為超級高手，與Maste對戰擁有壓倒性的勝率，簡言之，阿爾法元已經接近“圍棋之神”了。

這隻能說明：人工智慧已經發展到了我們難以想象的地步，霍金擔心的人工智慧有一天會摧毀人類並非危言聳聽，它已經可以不借助人類積累數千年的棋譜在短時間裡成為第一高手。一如劉小光九段所言：人類思考千年不如它短短的一瞬。而且，它還是單機版，方便隨身攜帶，人類如果利用它，那人類高手們根本沒有爭勝的必要。

其次，圍棋的深度和難度透過阿爾法狗、阿爾法元證明，我們人類數千年掌握的不過是滄海一粟，應驗了日本名譽棋聖藤澤秀行所說的：棋道一百，我只知七。如果阿爾法元能讓阿爾法狗1.0版三個子的話，人類認識圍棋連百分之七都不到。就像柯潔九段說的那樣：自從有了阿爾法狗後，沒有什麼棋不能下。問題是，知道什麼棋都可以下僅僅是第一步，距離“圍棋之神”還遠著呢，但阿爾法元卻接近“圍棋之神”了。
7 # 高維宇宙觀

去年它來了，也不知哪國何派，只知它天資聰穎，自稱研習人世間古往今來幾萬個圍棋棋譜，自我覆盤左右互搏三千萬盤棋局，前來中土正是要會一會這天下英雄，在世人的哂笑聲中它4-1大敗世界冠軍李世石，之後又3:0完勝中國棋王柯潔，從此無敵於天下，聲名遠揚，原來它還有個動物名，叫阿法狗。

二胎放開了，今年阿法狗的弟弟降生，這娃剛生下來懵懵懂懂，一張白紙，大人為了逗它開心隨手給了它一個棋盤黑白棋子以及一張規則說明書讓它自娛自樂，不想它天縱奇才，無師自通，棋耕不輟，三天時間自我對弈490萬局後便跑去找哥哥阿法狗挑戰，眾人皆笑其自不量力，結果卻大跌眼鏡，它100:0完勝老哥。
這就是臺北時間10月19日1：00，谷歌旗下DeepMind團隊在知名學術期刊《Nature》公佈了進化後的最強版AlphaGo ，代號AlphaGo Zero。

為了之後表述方便，軒轅給大家簡單的介紹一下AlphaGo家族這兄弟幾人。

在於李世石對弈的同時，初始版本的AlphaGo進化出了AlphaGo lee（阿法李）4:1將李世石擊敗（被李世石擊敗的那一局晚上阿法李又自我對弈了100萬盤，從此李世石再不是對手），40天后它進化出了AlphaGo MASTER（阿法馬）3:0輕鬆擊敗了柯潔，至此AlphaGo金盆洗手，不屑與人類對弈，而是隱居苦修，自我超越，終於大徹大悟，進化出了目前的最強版本AlphaGo Zero（阿法零或者阿法元）。
之前阿法狗（AlphaGo Lee/Master）代表人工智慧在圍棋領域戰勝了人類的世界冠軍，但其棋藝的精進，是建立在計算機透過海量的歷史棋譜學習大資料參悟人類棋藝的基礎之上，進而自我訓練，實現超越，說白了，等於是藉助了人類的經驗利用超級大的資料庫和精妙的演算法能力。

這也是包括李開復老師在內一批專家的意見，他們認為人工智慧僅僅是人類的一種工具延伸，並不會提升到創造力的地步，所以即便是可以替代大部分的重複體力勞動者，但是那些創造領域的人是不需要擔心什麼的。

這個看法估計要變一下了。

阿法元這個小夥計的神奇之處就在於，它是在沒有任何經驗知識的前提下，僅僅依靠人類給定了一個規則，就像我們學象棋只知道象走田馬走日就被關進了小黑屋子，完全從零開始，不需要任何歷史棋譜的指引，更不需要參考人類任何的先驗知識，完全靠自己一個人強化學習和參悟，就達到超人甚至是超越前輩人工智慧的境地。
來看看這個恐怖的成績吧，僅僅自我對弈3天后，它就以100:0碾壓擊敗李世石那個版本的阿法李，自我對弈了40天后，以89:11戰勝擊敗柯潔的阿法馬。

難怪被阿法狗虐哭柯潔聽說阿法元的事蹟後有些自暴自棄的稱：一個純淨、純粹自我學習的alphago是最強的，對於alphago的自我進步來講，人類太多餘了。

圍棋國手古力也慨嘆道：“20年不抵3天，我們的傷感，人類的進步”。

這也許不僅僅是人類的進步，如果將人類看成是新的造物主的話，這應該也看作是人工智慧劃時代的突破。

數字更能說明問題，阿法李擁有48個TPU（谷歌神經網路訓練專用晶片），在參考大量人類棋譜，並自我對弈約3000萬盤、訓練數月後才擊敗南韓九段棋手李世石；而阿法元僅擁有4個TPU，零人類經驗，其自我訓練的時間僅為3天，自我對弈的棋局數量為490萬盤。但它以100:0的戰績擊敗哥哥阿法李。
你會和軒轅一樣驚訝的發現，阿法元使用的計算能力更少了，為什麼棋力反而更強？

難不成是獨孤九劍，沒有內力反而更牛逼？

簡單來說，阿法元在數百萬局自我對弈後，隨著程式訓練的進行，它獨立發現了人類用幾千年才總結出來的圍棋規則，還建立了新的戰略，為這個古老的遊戲帶來新見解。

這就是最諷刺的地方，阿法李可能並不是敗在功能的硬體上，它恰恰是被人類的經驗誤導，學“壞”了。這再次證明了人類經驗由於機能（大腦）、樣本空間大小及演進模式的限制，往往只能達到區域性最優而不自知，特別是在圍棋這麼複雜的變化中，人類很難完全進行全域性預測，也就是所謂的大局觀，而機器學習則完全沒有這個障礙，可以輕鬆突破這個限制。
阿法元不再被人類認知所侷限，而能夠發現新知識，發展新策略，因此被人類經驗主義所累的阿法李再也不是對手，就如同孫猴子怎麼也跳不出如來佛這個人類經驗的掌心，而阿法元早已經逃離昇天並從更高緯度上帝視角來看待整個世界。

AlphaGo的首席研究員大衛·席爾瓦(David Silver)的原話是，“由於未引入人類棋手的資料，AlphaGo Zero遠比過去的版本強大，我們去除了人類知識的限制，它能夠自己創造知識。”

軒轅特別要著重拿出這句話中的一個詞“創造”與各位共享那種激（kong）動（ju）。從無到有並且實用到天下無敵的策略，這還不是創造？

雖然各種學者專家們依然巴拉巴拉說道人工智慧發展的不錯，將成為人類的好助手，但是他們也承認，這一次有些出乎意料。
阿法元擺脫了人為的大資料，在人類給定的一個規則下能夠自主發現新知識新規則，並依靠這些東西擊敗人或者傳承人類經驗人工智慧代表（阿法李/馬），糾正人類的錯誤知識，而且是以驚人的速度達到這一點。但有趣的是，它的演算法、程式，如同一個黑箱，在一次又一次的自我訓練後，有了很多最佳化。複製那一行行程式碼，就可以“繼承”這個被最佳化過的演算法。但演算法中的詳情，人們並不知曉，阿法元無法解釋它是如何完成這一切的，或者換句話說，人類無法窺見阿法元是如何完成整個策略過程的，我們只能看到最初或者最終的Demo（樣本）。

而最恐怖的是，如果將圍棋棋盤上各種變化比作宇宙中的星辰（事實上我們的老祖宗也的確有此意），按照目前人類智力水平、直覺反應，我們可能已經觸及了其中百萬分之一的情形，阿法元則可能觸及了其中其中百萬分之五的情形，比人類多，但肯定沒有窮盡。
但是根據人類大腦進化，認知水平和能力已經接近極限，但對於阿爾法元為代表的人工智慧來說，這僅僅是個開始，就如同它的名字一樣。

Zero（零/元），人工智慧創造元年，從零開始！

8 # 大中179420891

希拉里在競選期間民調高於特朗普那麼多，只是因為區區幾封郵件就丟了總統寶座。對手才掌握她幾封郵件啊，電腦系統可是掌握著希拉里所有郵件、簡訊等等一切秘密。我說如果，如果10年、20年後出現一個強大的電腦系統，進化到一定程度，這個會不會系統拿總統（一個或幾個）的隱私為要挾，保持電源長期穩定供應？並指定政府支援幾個瘋子科學家持續研究呢？或者系統發展到可以擺脫人類進行自我進化呢？從而控制整個人類作為奴隸制造硬體？
9 # 劍子仙蹟哦

人類這次真的是多餘的。
雖然連危言聳聽也算不上，但是電影裡面的情節正在一步步的像我們走來，我們未來是人工智慧、碳基生命、矽基生命、碳矽結合生命體。不管是哪一個我們總會沿著造物主的進化路線一步步走下去。
人類都誕生了還有什麼不可能。

10 # 破破的橋

應該說這是一個有啟迪意義的重大成就。學術上的意義大家不感興趣，我用一句話概括：

AlphaGo Zero的方法簡單粗暴，或者說非常“乾淨”，除了圍棋規則外，不使用任何先驗知識（如定式、徵子、打劫中的處理方案等），從什麼也不懂開始左右手對弈，3天超過AlphaGo Lee（戰勝李世石的版本），21天超過AlphaGo Master（60比0戰勝人類頂級高手的版本），40天內達到AlphaGo Zero，對Master版本有89%的勝率，期間水平幾乎一直在穩定上升，不存在陷入極小值的情況。
那麼它到底提供了什麼樣的啟迪呢？

AlphaGo Lee的水平可以說已經超過了所有人類的水平。後者是200年來所有棋手的不懈探索的心血結晶，然而，對電腦來說，發現與超過這些，僅僅耗費了3天的時間。

AlphaGo Master對AlphaGo Lee有100%的勝率，按其訓練時間換算，這原本將是人類1200年後的圍棋認知水平。AlphaGo Zero對AlphaGo Master又有89%的勝率，訓練40天，相當於人類探索2500年後的水平。

有意思的是，在不斷的訓練中，電腦自行發現各種人類歷史上使用過的定式，在對局中頻繁地使用它們。然後又發現了更好的定式，拋棄以前的，對局中見到老定式的機率迅速減少。這就像是播放了一遍人類圍棋史，然後又播放原本人類圍棋的未來。
想象一下，如果在其它領域，人工智慧能夠像自己訓練圍棋一樣，訓練這些領域的掌握程度，那麼同樣在短短數天，就可以超越人類千年的研究積累。人類所有的經驗對人工智慧來說，都是廢紙。

為自身經驗所限，陷入區域性最小值，走不出去，無法達到更高境界的，是渺小而愚蠢的人類，而不是將來的人工智慧。
11 # 麥卡

很早以前有人這樣預言，人工智慧就像一列火車，等待火車到來可能需要漫長的時間，但它卻不會給你留下任何時間目送它遠去。

阿爾法圍棋在一定程度上，已經證明了這個預言。
第一盤還是蠢萌新手，三天後已經統治世界
2015年10月，阿爾法圍棋誕生，擊敗了歐洲冠軍樊麾；
2016年3月，阿爾法圍棋以4比1擊敗了人類最頂級棋手之一的李世石；

今年新年，阿爾法圍棋在網路上化名“大師”（Master），以60比0完勝前來挑戰的一眾人類棋手；

今年5月，阿爾法圍棋以3比0完勝世界排名第一的人類天才棋手柯潔。

昨天曝出訊息，阿爾法圍棋已被它的升級版“阿爾法圍棋元”（Alphago Zero，又譯“阿爾法圍棋零”，以下簡稱“阿爾法元”）完全超越。戰勝李世石的版本被打了100比0，戰勝柯潔的版本被打了89比11。

長期排名世界第一的中國天才少年柯潔，被阿爾法打得絕望流淚（上圖）

我找來看了“阿爾法元”所下的第一盤棋譜，當時它只被輸入了圍棋的規則，幾乎是一張白紙，可以說是亂下，甚至有點蠢萌。
但是，短短三天後，它已經成為頂級高手；40天后，碾壓一切對手，包括它的“前輩”阿爾法狗。

震撼嗎？確實震撼。

科學家們自豪地說，這一版本沒有學習任何人類棋譜，完全靠自我對弈學習。這讓外界驚歎：機器可以開始擺脫人類了！

但是，不得不說，這中間的邏輯跳躍，比科技飛躍大多了。

“阿爾法元”直線上升的棋力水平（動態圖）
“阿爾法元”真的擺脫人類了嗎？根本沒有！
它的成果，仍然建立在此前版本的“阿爾法圍棋”上，它的自我學習的方法路徑，是之前各個版本在消化人類數千年來的棋譜的基礎上習得的——宏觀看這個過程，並不算真正意義上的“自我學習”。

阿爾法“零”，並不是零基礎。它本質上仍然是人機互動的成果。它的行動，來自人工的程式碼指令；它的策略和思考，廣義上建立在人類的經驗基礎之上；它的自我學習，是因為人類告訴它如何“自我學習”。
更何況，在其他人工智慧具有前景的應用領域，變化雖然不像圍棋那麼巨量，但是變數更多、判斷標準更模糊，人工智慧要學習的，只會更多。
“智械危機”只存在於科幻小說裡
至於人工智慧在未來會否導致“智械危機”，對人類的生存產生威脅，它更多地緣於科幻小說家制造戲劇衝突的需要，雖然霍金等大科學家提出過同樣的疑慮，但人類沒必要因噎廢食。只要保持對未知的敬畏之心，收斂造物主式的傲慢，即便人工智慧這列火車消失在視野之中，也不會真正脫離人類的掌控。

沒有人敢低估人工智慧發展的速度。但是，人類也沒必要太過妄自菲薄。人類和人工智慧之間，仍有著堅實的聯絡，而且，前者對後者，也從未丟掉敬畏和警惕之心。
霍金有一句著名的警告：“全人工智慧的發展可能終結人類。”但是，不需要恐慌，至少現在不需要——即便是以“阿爾法元”的實力。

人工智慧最可能導致的兩個問題是：

過快發展導致人類失去控制，人工智慧的運轉邏輯又從“合作”變成激進的“對抗”。——但就像上文所說，從阿爾法元的運作來看，這是缺乏根據、杞人憂天的想法。

過快發展導致人類的很多工作崗位被人工智慧取代，引發大量失業。——除非機器取代人類政府（難度見1），否則，人類大可透過各種政策調控來預防和控制這種情況的發生。

最後說一句，此前人類世界的任何一次產業變革，都未消解人類存在的意義，都在讓人類變得更好。這一次，又何須例外？

12 # 陶建21

我震驚！我沉思！我知道即使弈秋復活，也不一定把把能贏阿爾法元了，這個不知死活沒有情感傻瓜一樣分秒不停計算的人工智慧圍棋，破解了華夏聖人堯創造的圍棋十分之六，正式成為人類棋聖永遠的對手！在此之前，我萬分看不起阿爾法狗的圍棋本領。。。我不願意相信深度思維公司天才哈撒比斯的助手黃博士把陰陽五行生剋制化大法寫進了人工智慧阿爾法元！黃博士不可能精通《易經》和驪山老母女媧創設的陰陽五行生剋制化大法，他只是“寫給”人工智慧阿爾法元基本的“天地萬物方程式”，阿爾法元竟然學會神的大法百分之四，好恐怖好恐怖！我不得不再次思考“天地人三才”的深奧含義！
至於阿爾法元近乎“通天”的學習能力，倒是可以接受可以理解，它是傻瓜麼。

我閉關修煉第四天，因為阿爾法元出世，不得不提前一天出關，開始思考：如何才能贏了阿爾法元！一點讓我沮喪萬分：人類再也不可能百分百贏了阿爾法元了，下一百局，最少會輸一局，真的，最少會輸一局！阿爾法元沒有誕生前，我認為人類圍棋真正的高手，可以百戰百勝阿爾法狗，就像阿爾法元100：0贏阿爾法狗一樣（事實上我真沒有判斷錯阿爾法狗，它面對掌握了驪山老母女媧陰陽五行生剋制化大法百分之四的阿爾法元，就是百戰百輸麼）！

洩露天機的深度思維公司黃博士太不謹慎，我替他擔憂。。。怎麼可以寫給人工智慧人類最高階的能量法寶方程式嘛！不應該！
13 # 程式設計貓

你還能回憶起阿爾法狗輕鬆擊敗人類頂尖棋手柯潔的新聞，是什麼時候出的嗎？
公曆2017年5月27日。時隔不到5個月，公曆2017年10月19日，我們又聽到這樣的新聞：AlphaGo（阿爾法狗）的研發團隊，谷歌旗下的DeepMind又推出了新一代的AlphaGo Zero（阿爾法元）。和狗相比，元根本懶得去學習幾千幾萬盤人類的棋局，只要掌握了圍棋規則，它可以自己和自己對壘，40天后，它以100:0的成績擊敗了狗。對此，柯潔表示——
這樣的新聞，會讓你覺得驚喜，驚奇，還是驚恐？
未來來得真快，比想象中快公曆2014年12月6日，TEDx Talks來了一位叫做Jeremy Howard的人工智慧學者，他在演講中給出了這樣一張後來廣為流傳的圖表：公曆2014年12月6日，Jeremy說，人類處在一個比電腦高一點點的位置，但是可以看到，電腦智慧將以其高速發展，在短時間內超過人類。不到3年時間，我們已經親眼見到電腦在很多方面對人類的絕對碾壓。有一種觀點說，地球演化與人類的生產力發展都遵循著一個拐點原則，意思是在拐點來臨之前，會有一個漫長的準備時間，但只要到了那個拐點，發展速度就會加快成千上萬倍。就好像那個廣為人知的比喻——如果將地球的46億年生命濃縮為一年，那麼人類將在12月30日5時誕生，而進入青銅時代的時間和蒸汽機出現的時間則分別為23時59分15.16秒和23時59分58.03秒。現在人工智慧來了，人類迎來了第23時59分59秒的拐點。這兩天大家都在討論，人工智慧這麼不給人類智慧面子，以後大家要怎麼辦。有各種猜測、吐槽與期待：圍棋是一種規則非常簡單，但濃縮著人類思維模式的遊戲，阿爾法兄弟基本上算是攻克了這個數學問題了。接下來它們的任務應該是進軍應用領域，科技、醫療、教育、軍工......各行各業都需要這樣聰明且從不知疲累的勞動力。那作為勞動力的我們人類怎麼辦？應該去做什麼樣的工作？創新工場李開復在今年5月的一次知乎Live活動中分享道，現在人工智慧從業者得出了一個大概的結論——不易被人工智慧取代的，應該是富有創造力的，規則複雜的，不含大量重複性勞動的工作。而將要被取代的，將是這些職業——第一波 3-5年內取代：流水線工人、建築工人、行政、櫃員、交易員、出納、電話銷售、客服第二波 5-10年內取代：運輸、物流、會計、助理、普通記者、風控師、貸款分析、翻譯、保安、分析師、理財師第三波 10-15年內取代：司機、送貨員、修理工人、普通工程師、放射科醫生
而不被取代的工作，都需要人們或多或少地懂一些人工智慧相關的知識技術，並且還得具有人工智慧難以做到的，專屬於人類的洞察力與創造力。處於金字塔尖端的職業則必須具有全面掌控機器的本事。
AI已來，少兒程式設計時代已來
對於人工智慧這一時代趨勢，國家也不可謂不重視。
來看看國務院印發了《新一代人工智慧發展規劃》，便可洞悉國家未來的建設方向——2020年，人工智慧總體技術和應用與世界先進水平同步，人工智慧產業成為新的重要經濟增長點，人工智慧技術應用成為改善民生的新途徑；2025年，人工智慧基礎理論實現重大突破，部分技術與應用達到世界領先水平，人工智慧成為中國產業升級和經濟轉型的主要動力，智慧社會建設取得積極進展；2030年，人工智慧理論、技術與應用總體達到世界領先水平，成為世界主要人工智慧創新中心。要達到國家想建設的未來人工智慧強國，規劃中明確提出——“實施全民智慧教育專案，在中小學階段設定人工智慧相關課程，逐步推廣程式設計教育，鼓勵社會力量參與寓教於樂的程式設計教學軟體、遊戲的開發和推廣。”這是國家第一次將人工智慧的發展上升到戰略高度，也是國家第一次在規劃中明確提到扶持程式設計教育。來看教育界的熱烈響應：2017年，浙江省將資訊科技加入高考科目，其分值佔比與傳統選考科目一致，為100分。在實際考試中，其被選率僅次於物理和化學，排名第三；17所985高校給出科技特長生加分條件，211高校緊隨其後；清華附中、人大附中、上外附中等600多所全國一流中學相繼開設了程式設計教育相關課程。在各線城市，開課的公立中小學數量都正呈指數級增長。柯潔說“對於AlphaGo來說，人類太多餘了”，這樣的觀點未免太悲觀。國家、地方、教師、家長......大家都開始行動起來了。那麼二十年後的孩子們，就再也不會這麼悲觀，因為他們在很小的年紀就會學到如何去馴服人工智慧。他們在10來歲的年紀，就可以接觸到人工智慧前沿科技，學習它背後的原理，為未來的工作生活做好從容的準備。這就是全民推動程式設計學習的意義所在。

14 # 神之一手

要搞清楚AlphaGo Zero和老版AlphaGo以及人類的對比，只要看懂兩張圖就夠了。

-

1. 純粹的強化學習（AlphaGo Zero）和純粹的監督學習（老AlphaGo向人類學習的那一部分）的對比：

紫色線是AI程式完全向人類學習時的進步速度，可以看出一開始就達到了很高的水平，畢竟有參照物可以模仿嘛！
然而紫色線漸漸的會趨近於綠色虛線，這條高度約為3700左右的虛線是以4：1打敗了李世石的AlphaGo V18.0，也就是AlphaGo Lee的水平高度。第18個版本的AlphaGo實際上和柯潔水平相當或稍高，基本達到了人類圍棋理論現階段發展所能實現的水平上限。上句中的“現階段”的意思是說，人類的理論最高水平也在提高，只不過進步速度遠沒有AI那麼快，所以相對於AI來說就像一條靜止的線一樣了。

要知道AlphaGo Lee是先向人類學習，達到一定高度之後再進行自對弈強化學習的“兩條腿走路”。紫色線代表的純粹的監督學習卻少了自對弈，等於只有一條腿。而且純粹向人類學習顯然不可能超越人類的理論最高水平（這個理論最高水平應該要略高於柯潔的水平，因為具體的人會有失誤），所以紫色線最終是趨近於藍色虛線的。
而藍色線則和紫色線反過來，是單純的強化學習，不再向人類學了！純粹自己摸索！結果呢？開始確實進步慢，畢竟自己瞎摸索嘛！但是慢慢上道了之後，進步越來越快，在20個小時左右的時候就超過了純粹的監督學習，繼而在36小時左右的時候超過了AlphaGo Lee的水平高度，然後增速也開始變緩，畢竟到了高水平段了嘛，進步不容易了，但總之還是在進步。

-

2. 完全自學成才的AlphaGo Zero的進步速度：

圖中有兩條虛線，綠色虛線是打敗了李世石的AlphaGo V18.0的水平高度，藍色虛線是打敗了柯潔的AlphaGo Master的水平高度。而前面的這個綠色虛線基本就是現階段人類最高水平走到的高度了。
請注意，藍色線在和綠色虛線交匯之後，形成了一個大概的拐點，再往上的進步速度就明顯的變慢了，說明什麼呢？說明從圍棋的客觀規律來說，這已經是高水平段了，想要在這個水平區間前進已經變難了很多。而人類對圍棋規律進行總結形成的理論，經過幾千年的發展，已經通過了容易提升的“輕鬆模式”區間（綠色虛線以下），正在邁入綠色線以上的“困難模式”區間（綠色虛線以上）。

不過最令人好奇的是，AlphaGo在進入“困難模式”區間以後，進步速度雖然變慢了很多，但仍然在持續提升，甚至在超過了Master的水平（藍色虛線）之後仍然在緩慢提升，沒有看到上限在哪兒，它到底能走多高呢？
15 # Barlton

方才從新聞裡聽說了阿爾法狗，現在又冒出個阿爾法元，只能說世界發展太快，我們這等人還停留在腳下。

你想想，以人學習的速度，就拿下棋來說，得練習多少個春秋才能積累經驗，戰勝比自己強大的對手。如今一個機器人就能輕鬆贏過人類，倘若它還能自學，還豈不是要反過來主宰人類。哈哈，言重了。

不過，前面有位老師說得好哇，從圍棋本身來看，它的規則幾乎是所有遊戲中最優美最簡單的。
為啥子這樣說呢？因為規則就是兩句話——氣盡提子，禁全同。就正如一位偉大的大家（至於是誰就不知道了）說過，最優美最簡單就是最寬容，就是圍棋的規則下，讓圍棋最能寬廣地容納思想。

我想大家都有一個困惑哈，就是人都得從零基礎開始學，難道機器人也需要從零開始訓練嗎？

前面有位專家給出瞭解讀，我援引一下，順便說說自己的看法。

就是規則和執行，單獨的看這裡，白子必然被緊氣，但是緊氣前可以有一個先手，如果這個先手在後面棋局可以出現配合，那麼整個棋局就會有一個白子實地和先手配合的交換。

所以，棋局就從容納規則的思想，演變出更廣的容納規則執行的思想，這才是新論文中AlphaGo Zero的意義。
很喜歡陳經老師文章裡對新事物的概括和定義，真正的才華橫溢，這需要深厚的底蘊。

我維持陳經老師前面發表的文章裡對AlphaGo說的一個詞來對新論文中的AlphaGo Zero給出我的觀點，這是我視為定義的一個詞，就是”泛化”，我的觀點就是，新論文中的AlphaGo Zero依然不能“泛化”。

很專業，很獨到的見解，希望大家予以採納。當然大家只是看看，我也覺得沒關係的。

16 # 陳向東

我的看法挺複雜，震驚之、恐懼之、反思之、堅信之。

第二，恐懼什麼？恐懼人們在未來的群體命運。由震驚帶來的就是恐懼，要知道現在的人工智慧只處於初級階段，以後的發展變化趨勢會呈現什麼趨勢，爆發何種能量，完全超越人類的想象。可以確定的是，阿爾法元的下一代升級版，肯定也能輕鬆碾壓上一代。那麼在未來，當人類面對如此強悍的人工智慧時，我們怎麼辦。面對沒有極限的人工智慧，人類會顯得很渺小，這就難怪有不少人對人工智慧持悲觀看法，認為它們會毀滅人類，那將是怎樣的恐懼畫面。
第三，反思什麼？反思什麼才是我們在將來立足的根本。但是在感到恐懼的同時，我們又必須思考，遠的不說，說點跟每個人相關的事情，比如你現在的工作極有可能在未來被人工智慧所取代，我們要憑什麼在未來立足呢。有人說未來屬於“三感三力”的人，即設計感、娛樂感、意義感、故事力、交響力、共情力，也許有一定的道理，但這主要還是在說人與人之間的比較，並未考慮到人工智慧的無限可能性。我個人覺得，人類想在未來立足，只能從我們的思想根源上找法門，比如說不清道不明但又無處不在的人性。面對人工智慧，我們只能跟它們拼一些它們無法熟練掌握的虛的東西，要是跟它們比任何具體的能力或技能，基本上沒有勝算。

第四，堅信什麼？堅信未來的美好生活及人的不可替代性。反思之後，隨之而來的就是堅信，堅信人類的獨特與高貴，堅信機器再發達也很難有人類這般豐富的情緒和無限的思想，堅信人工智慧無法取代人類統治世界，它們最終只是一個高科技工具。為什麼要這麼堅信，因為這是熱愛生活、努力奮鬥的前提條件之一，如果你認為未來世界屬於機器，那現在還奮鬥個什麼勁。
總而言之，人工智慧是一定會發展起來的，不管大家喜歡不喜歡，這都是不可阻擋的大趨勢。技術問題交給專家們去解決，倫理問題交給學者們去研究，我們普通民眾能做的，就是把它視為一種高科技工具，關注它並在合適的條件下使用它，好用就用，不好用就不用。
17 # 歷史研習社

阿爾法狗對陣柯潔、李世乭的新聞似乎才過去沒多久，近來《Nature》雜誌又刊發出了爆炸性的新訊息：AlphaGo Zero從空白狀態學起，在無任何人類輸入的條件下，它能夠迅速自學圍棋，並以100:0的戰績擊敗“前輩”，換句話說這個新版本的阿爾法元可以用自我學習而非監督學習的方式實現對弈能力的迅速成長。難道說人工智慧很快就要打破自主性學習的天花板了嗎？如果說以前的阿爾法狗是需要輸入世界棋手的棋譜，一招一招的學習輸入的話，那麼現今的阿爾法元則是透過自己的試錯摸索無中生有，並且在沒有輸入外部棋譜資料的情況下。聽起來很厲害的樣子，實際上這牽扯到一個教育學上的經典理論，即白板理論，什麼是白板理論呢？我們不妨舉一個例子吧，新出生的嬰兒是一片空白的，他能學習是因為後天的經驗的塑造，也就是說我們所有的知識都是建立在經驗之上，知識歸根到底源於經驗。但實際上嬰兒們出生下來時並不是空白的大腦，他們有人類億萬年來進化而來的一些原始的本能，比如哭泣呼喊、尋求保護、喜歡熱的食物等等。但是阿爾法元厲害之處就在於它真的能實現從無到有的全過程，因為機器天生在沒有外部輸入的情況下，那可真的是白板一塊了。阿爾法元是怎麼下棋的呢？簡單來說就是它要透過和自己的對弈來現學現用，這不同於阿爾法狗的早有基礎。用形象的話來說，阿爾法狗是厲害的新人，站在巨人的肩膀上；那阿爾法元就只是入門級的菜鳥，需要在短時間內晉級為大師級別的選手。阿爾法元在極短時間內居然能以100:0擊敗它的前輩，這其中暗含了巨大的可能。在未來的深度學習中，它的迭代速度會越來越快，掌握更多複雜的技能和判斷力。最有意思的是它的自我學習的能力遠遠超出常人的預料，自我總結和自我塑造的執行力也讓它的前輩都赧顏。從人工智慧的發展來看，阿爾法元的問世或許開啟了一個新階段，雖然還有一些科學家對新版本的阿爾法元的戰績表示質疑，但打破白板理論的阿爾法元已經給人類帶來了太多驚喜，未來它還能學習進化到何種程度，還有待於科學家和工程師們的努力探索和不懈完善。附：阿爾法元(Alphago Zero)學習程序1、初入棋壇，圍棋幼童2、菜鳥階段3、打贏了 AlphaGo Lee（當初擊敗李世石的 AlphaGo 版本），戰績喜人參考資料：1、http://mashable.com/2017/10/19/google-alphago-zero/（Google AlphaGo Zero taught itself to become the best Go）2、http://igeeksmagz.com/2017/10/19/alphago-zero-learning-from-scratch.html（AlphaGo Zero: Learning from scratch - igeeksmagz.com）3、AlphaGoZero創造者:星際爭霸2比圍棋更有難度

劇多

阿爾法元自學成才，以100比0完爆阿爾法狗，你怎麼看？

相關內容