回覆列表
  • 1 # 老鐵侃談

    我個人認為,這個是人工智慧發展的里程牌來的,同時也意味著人工智慧會出現新的研究方向。再看看其他人,是怎麼樣評價的,其中柯潔迴應最亮了

    安全專家評價

    金山毒霸安全專家是這樣子評價的:AlphaGo Zero(阿法元)“成神”了,不需要人類歷史資料訓練,並且已經100:0打敗李世乭的大哥AlphaGo,也打敗了AlphaGo master(和柯潔對戰的)。

    知乎上的評價

    https://www.zhihu.com/question/66861459/answer/246746766

    從技術上說,最主要的創新是以下兩點:

    從多網路到單網路。原AlphaGo用了兩個網路,決策網路用於預測可能的走法,價值網路用於評價當前局勢的優劣。這次的AlphaGo Zero將這兩個網絡合二為一,新的網路同時輸出走法p和局勢打分v。從卷積網路到殘差網路(此處再次膜拜Kaiming He大神)

    論文作者證明了架構的改變對結果的影響非常大!請參考下面的對比圖。“dual”表示使用合併的網路,“sep”表示分開的網路,“conv”表示一般的卷積網路,“res”表示殘差網路。使用同樣的訓練樣本,同樣的訓練步數,dual-res的elo分值比原先Alpha Go的sep-conv架構高出了1000多分,可見新的網路架構提升了網路的表達能力,訓練起來也更加簡單。

    另外有人疑惑的是,演算法是如何進行透過自我博弈來學習的?詳細解釋一下,假設一開始有一個完全隨機的網路N,這個網路完全是一個圍棋小白,不具備任何的知識。根據上面的架構,N有兩個輸出,預測的走法p和對局勢優劣的判斷v。如果稍微有一點點機器學習的相關知識,就會知道訓練網路是需要訓練樣本的。應該如何得到訓練樣本?參考原論文中的訓練過程:

    在a步驟,N網路利用自身的輸出p和v,自己和自己對弈。不管此時N網路是什麼水平,最終都會有一個勝利者,我們就用勝利者的走子方式作為N網路的訓練正樣本。

    再到b步驟。此時用a步驟得到的訓練樣本進行訓練,就得到一個新的N網路。由於使用了勝利者的走子進行訓練,這個N網路會比之前的N網路稍微“強一點點”。然後再重複自我對弈->訓練->自我對弈……的過程,N網路就會不斷迭代變得越來越厲害。如果你知道DQN演算法或者Policy Graident演算法,就會發現這種迭代過程是和它們一模一樣的。

    可以預見的是,這篇文章之後,很快會有一大波“AlphaGo”橫空出世,每個圍棋愛好者都可以擁有自己的“AlphaGo”。原因有二,一是之前訓練一個AlphaGo需要收集大量人類棋局資料,這其實是有門檻的,現在連蒐集棋譜資料也不用了,直接就可以訓練。二是需要的資源也大大減少。打敗李世石的那個AlphaGo,需要在多臺伺服器上用48個TPU訓練幾個月的時間,這種資源別說是個人,就算是公司也很難的負擔得起。作為對比,這次的AlphaGo僅僅需要一臺機器4個TPU,訓練3天就可以打敗之前的AlphaGo,在計算資源的需求上少了太多,相信用單個GPU也能達到比較decent的結果。

    最後,上一張官方的動圖,可以直觀感受到深度強化學習的威力(只用40天,超越人類幾千年的經驗):

    最亮的迴應

    原話:一個純淨、純粹自我學習的alphago是最強的...對於alphago的自我進步來講...人類太多餘了

    PS:心疼柯潔三秒鐘。。。。

  • 2 # 初始值

    今天有兩隻GO快要改變世界了,老GO被新GO的智慧碾壓,完成了從“快速學習”到“無師自通”的革命性轉換。

    對,就是大谷歌的“新狗”AlphaGo Zero的水平已經超過之前所有版本的AlphaGo。在對陣曾贏下南韓棋手李世石那版AlphaGo時,AlphaGo Zero取得了100:0的壓倒性戰績。

    2017年5月,以3:0的比分贏下中國棋手柯潔後,AlphaGo宣佈退役,但DeepMind公司並沒有停下研究的腳步。倫敦當地時間10月18日,DeepMind團隊公佈了最強版AlphaGo ,代號AlphaGo Zero。它的獨門秘籍,是“自學成才”。而且,是從一張白紙開始,零基礎學習,在短短3天內,成為頂級高手。

    倫敦當地時間10月18日18:00(臺北時間19日01:00),AlphaGo再次登上世界頂級科學雜誌——《自然》。

    一年多前,AlphaGo便是2016年1月28日當期的封面文章,Deepmind公司發表重磅論文,介紹了這個擊敗歐洲圍棋冠軍樊麾的人工智慧程式。

    團隊稱,AlphaGo Zero的水平已經超過之前所有版本的AlphaGo。在對陣曾贏下南韓棋手李世石那版AlphaGo時,AlphaGo Zero取得了100:0的壓倒性戰績。DeepMind團隊將關於AlphaGo Zero的相關研究以論文的形式,刊發在了10月18日的《自然》雜誌上。

    “AlphaGo在兩年內達到的成績令人震驚。現在,AlphaGo Zero是我們最強版本,它提升了很多。Zero提高了計算效率,並且沒有使用到任何人類圍棋資料。最終,我們想要利用它的演算法突破,去幫助解決各種緊迫的現實世界問題,如蛋白質摺疊或設計新材料等高新科技領域。如果我們透過AlphaGo,可以在這些問題上取得進展,那麼它就有潛力推動人們理解生命,並以積極的方式影響我們的生活。”

    AlphaGo之父、DeepMind聯合創始人兼CEO 戴密斯·哈薩比斯(Demis Hassabis)這樣說(上面那段)。

    新一代AlphaGoZero(阿法元)的革命性進步,除了學習的智慧還在能耗上有了降低,只用到了一臺機器和4個TPU,極大地節省了資源。TPU(Tensor Processing Unit)即張量處理單元[1] ,是一款為機器學習而定製的晶片,經過了專門深度機器學習方面的訓練,它有更高效能(每瓦計算能力)。

    而上一代GO還需要48個TPU才能打敗人類!

    對於這一代的阿法元來說,其最大也是最耀眼的進步就是在機器智慧學習的過程中,已經可以完全不需要人類的參與。再此之前的智慧,最多隻是說比人類學習東西更快,而阿法元的出現把人工智慧的演算法推到了另一個高度,開始把人類在機器智慧的學習發展中變得不那麼必要,由以前的靠大資料餵養變成了自己學習。

    如果說機器人存在“意識”的邏輯成立,那麼也許這就是開始。

    當然,作為在科技方還算懂點皮毛的人,我們認為面對AI完全沒必要那麼悲觀。

    事實上,人工智慧會成為人類智慧的增強器,幫助我們解決人類正在面臨的一些嚴峻挑戰 。這樣的AI智慧,就像被無限開發的人的大腦一樣,也許,它能幫我們學習和理解那些人類還不懂得人文和生物秘密。

    儘管才剛剛發展起來,AlphaGo Zero已經走出了通向上述目標的關鍵一步。對於希望利用人工智慧推動人類社會進步為使命的DeepMind來說,圍棋並不是AlphaGo的終極奧義,他們的目標始終是要利用AlphaGo打造通用的、探索宇宙的終極工具。

    AlphaGo Zero的提升,讓DeepMind看到了利用人工智慧技術改變人類命運的突破。他們目前正積極與英國醫療機構和電力能源部門合作,提高看病效率和能源效率。同時類似的技術應用在其他結構性問題,比如蛋白質摺疊、減少能耗和尋找新材料上,就能創造出有益於社會的突破。

    從機器學習的演算法角度來說,這次的GO算得上是質的飛躍。

    -

  • 中秋節和大豐收的關聯?
  • 汽車轉向系統是如何工作的?