回覆列表
  • 1 # 大彘的放映廳

    阿爾法狗的學習模式簡單粗暴,就是以量取勝,經歷並記住每一招的變化,它並不預測對手,只是透過過往的資料選擇勝率最高的走法,本質上是資料的積累和歸納

  • 2 # 左氏滋補間

    透過一隻“狗”,我們認識到谷歌的人工智居然可以打敗人類?

    事實上,只要知道這件事情就對了。

    在吸取教訓後,圍棋網站出現神秘的高手時,人們馬上就嗅到了人工智慧“阿爾法狗”的氣息。在猜測它的真實身份過程中,Master(賬號名)已經以每天10盤的驚人速度在弈城,野狐等網路圍棋隊長平臺打敗中日韓的頂尖高手們,因為一則懸賞更多人關注到這場戰役中,但是都沒有成功最後它以60局收官,重新整理人們的三觀。

    阿爾法狗也就是谷歌的人工智慧實驗室推出的人工智慧成品AlphaGo,被用來向世人展示人工智慧的發展現狀,因為阿爾法狗戰勝了當今棋王南韓棋手李世石,大眾對此的認知從科幻片中得以徹底驚醒,谷歌又主導建立了AI合作組織(Partnership on AI)來消除公眾擔憂並把問題更放在公開場合來進行討論,幫助這一科學成就更快融入社會。

    最初人工智慧的領航者谷歌探索是在2011年啟動谷歌大腦開始的,把AI滲透在Gmail,谷歌相簿,谷歌翻譯,谷歌助手等產品中。在來自全世界的海量資料中,人工智慧被定位為深度學習,知識圖譜,自然語言處理和翻譯,語音影象識別等方面的“高階演算法”,必須有效能更高的晶片和硬體。甚至李世石“棋王對戰”時,有人戲稱他是在與10個CPU跑步。後來谷歌所突破的眾多產品技術被人們認可,人工智慧被谷歌宣佈為未來科技的趨勢,還推出工具型產品TensorFlow的AI系統並將其開源,相當於送給全世界開發者的AI門票,呼喚更多人走入人工智慧領域,推進這一行業的發展。

    如果人工智慧是應用在產品中的服務打敗別的產品,逼著科學和技術不斷突破;當人工智慧應用在大腦上,PK人類的智慧與勞動,那帶來的就是革命。

  • 3 # 鬼谷門軍師

    演算法改進,類似於將原來的一對一精確索引改為一對多權重索引。打個比方,以前是1+1=2,現在是你告訴他是數學題那麼1+1=2,你告訴他開個玩笑那麼1+1=8,你說不能等於8否則砸爛他,那1+1=7。總之,列出所有的結果,根據不同條件賦予每個結果不同權重,下棋時不用遍歷棋譜,而只需要此局面下勝率最高的走法即可。當然這只是打個比方,真正的演算法很複雜。值得一提的是,中國在這個領域也頗有建樹,騰訊的絕藝雖不如阿爾法狗牛逼,但也足以擊敗一切人類選手。不僅如此,中國在硬體領域也開始彎道超車,不再滿足於傳統cpu架構,而是直接設計智慧化晶片,從硬體上改變計算方式。少年班出身的陳天石是智慧晶片領軍人物,目前設計了寒武紀智慧晶片和diannaoyu深度學習指令集,沒錯,就是以漢語拼音命名的,讓老外學習我們。

  • 4 # 機器之心Pro

    2016 年 3 月大戰李世乭的 AlphaGo 版本被認為還不是很完善,當時 AlphaGo 主要是依靠大量學習人類棋手的棋譜來提高棋藝。隨後 AlphaGo 進入到完全的自我深度學習階段,也就是完全摒棄人類棋手的思維方式,按照自己(左右互搏)的方式研究圍棋。2016年年底,AlphaGo 化名 Master,在網路上與人類頂尖棋手下了 60 盤測試棋,取得 60 局全勝的驕人戰績。透過那次測試,谷歌旗下的 DeepMind 又發現了 AlphaGo 不少需要完善的地方,2017年 5 月中下旬即將與柯潔進行正式人機大戰的將是 AlphaGo 2.0 版本。

    2016 年 1 月 28 日,Nature 雜誌以封面論文的形式介紹了 DeepMind 團隊開發的人工智慧程式 AlphaGo,這也就是後來擊敗南韓棋手李世乭的 AlphaGo 版本。

    AlphaGo 結合了監督學習與強化學習的優勢。透過訓練形成一個策略網路,將棋盤上的局勢作為輸入資訊,並對有所可行的落子位置形成一個機率分佈。然後,訓練一個價值網路對自我對弈進行預測,以-1(對手的絕對勝利)到 1(AlphaGo 的絕對勝利)的標準,預測所有可行落子位置的結果。AlphaGo 將這兩種網路整合進基於機率的蒙特卡羅樹搜尋(MCTS)中,實現了它真正的優勢。

    在獲取棋局資訊後,AlphaGo 會根據策略網路(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜尋時間結束時,模擬過程中被系統最繁瑣考察的位置將成為 AlphaGo 的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo 的探索演算法就能在其計算能力之上加入近似人類的直覺判斷。

    但是新版的 AlphaGo 產生大量自我對弈棋局,為下一代版本提供了訓練資料,此過程迴圈往復。

    AlphaGo 的強大之處不在於一招一式,而在於對每一局比賽展現出的全新視角。雖然圍棋風格略顯抽象,但 AlphaGo 的策略展示了靈活與開放的精神:沒有先入為主的訓練讓它找到了最有效的下棋方式。實用哲學讓 AlphaGo 經常走出違反直覺——但卻最為合理的舉動。

    儘管圍棋是一個有關圈地的遊戲,但勝負手卻在於對不同戰區之間的取捨平衡,而 AlphaGo 擅長創造這種平衡。具體來說,AlphaGo 擅長運用「影響力」——已有棋子對自己周圍的影響為自己謀取優勢。雖然 AlphaGo 的價值網路不能準確地計算出影響的數值,但它的價值網路能夠一次性考慮棋盤上的所有棋子,以微妙和精確的方式做出判斷。正是這樣的能力讓 AlphaGo 把自己在區域性的優勢轉化為整個比賽的勝勢。

  • 5 # 柯南話乒乓

    過去圍棋程式的思路是,讓電腦計算出圍棋的所有變化,這樣肯定就能擊敗人類了。理論絕對沒錯,可事實上這一點根本做不到,因為據比較準確的估算,這個變化的總數極其龐大,龐大到比宇宙中所有的微粒總數還大,再快的計算機N多年都算不完。

    所以,很長一段時間內,電腦早就能完勝人類最頂尖的中國象棋和國際象棋棋手,可在圍棋領域,電腦的水平卻一直跟職業棋手相去甚遠,以至於圍棋被認為是人類對電腦最牢固的一道防線。

    然而,阿法狗的橫空出世徹底顛覆了人類的認知。這就是思路改變出路的經典案例了。

    阿法狗的路子是,它根本不試圖去窮盡圍棋的所有變化,甚至它壓根不去計算變化。它只是儘量收集職業高手的棋譜,然後用極其牛逼的演算法挑選出每個局面下的最佳招法,如此而已。典型的知其然而不知其所以然。

    原理確實簡單,但背後的演算法卻實在複雜和精妙。拜網際網路所賜,甚至不用和職業高手對弈已經靠設計師輸入棋譜,狗2透過程式就可以自動從網上抓取棋譜充實自己的資料庫,然後在跟職業高手的對弈中利用前述的演算法挑選最佳招法。如此這般,職業高手跟狗2下的越多,甚至職業高手之間的對局越多,狗2就會越強。

    所以,阿法狗可以完全不懂什麼佈局、中盤、和官子,也不必懂什麼死活、手筋、惡手,更不用去判斷厚勢值多少目這些圍棋中最奧秘的東西。就像令狐沖從畫中看出劍法一樣,它眼中的圍棋世界跟職業棋手眼中的圍棋局面形似而神不似,是完全不一樣的。它並不思考,也不會思考,狗2會思考,上帝狂發笑~它只是模仿和選擇,當然,它的這種能力太過於強大。

    因此,阿法狗是無所謂棋風,無所謂招法的,它玩的就是傳說中武功的最高境界:無招勝有招。

    最後顛覆下大家的認知。現在所謂的人工智慧,包括狗2在內,嚴格說起來根本不算人工智慧。或者說只是人工智慧很初級的階段,再或者說是不同於人工智慧的另一種能力-機器智慧,反正不管怎麼說,跟人類智慧不是一回事。

    為什麼這麼說呢?大家想想看,什麼是人類智慧?最重要的是思考吧,可人類如何透過大腦思考,現代科學還遠遠沒有搞明白,大腦的結構、神經元的機理和神經網路的執行等,這些最根本的東西人類瞭解得非常有限。換句話說,人類智慧是怎麼回事我們自己都不清楚,人類編制的程式怎麼可能是人工智慧呢?

    何況從阿法狗的機理我們不難看出,它的強大並不是透過人類大腦模式的思考,本質上還是機器式的儲存和模仿,只不過這種能力太過於強悍,以至於似乎在某些方面比人類智力厲害得多,但畢竟不是一回事。聰明無比的笨蛋,也許是這類所謂“人工智慧”最貼切的稱呼。

    就像一個從來沒學過圍棋的小孩,突然吃了一粒神丹妙藥,一下子變成了絕頂高手,而且還不斷地吃這種神丹,讓自己越來越強。這跟人類利用智力學習圍棋的過程是完全不同的。

  • 6 # 白水工作室

    具體的不知道,但好象它的官子水平還沒經實戰檢驗,價值判斷是否精確。它的對局選點不是窮盡搜尋,是否有遺漏。對區域性的變化如定式是記憶還是計算結果。誰知道告訴我。

  • 7 # 老徐開箱

    臺北時間3月9日中午12:00,在南韓首爾上演了電腦與人腦的大戰,由Google AlphaGo圍棋程式對陣南韓圍棋9段冠軍李世石,經過不到4個小時的對弈,AlphaGo戰勝李世石,取得了圍棋比賽的第一局,舉世震驚。作為人工智慧挑戰人腦的第二次進擊,AlphaGo相對超算“深藍”又有哪些不同呢?未來人工智慧會不會全面取代人類呢?

    AlphaGo是由Google DeepMind(英國,2014年被Google 4億美元收購)開發的人工智慧程式。DeepMind致力於開發人工智慧程式,不同於早起的人工智慧單純依賴計算機強大的計算效能,AlphaGo程式開發了計算機學習和系統神經科學方法,透過KGS(Kiseido Go Server)與世界各地的圍棋選手競技過程中不斷成長,在去年10月份的時候就已經戰勝了歐洲圍棋冠軍樊麾,並於近日正式開始挑戰世界冠軍李世石,第一局已經告捷。

    AlphaGo如何下圍棋?

    自從計算機在國際象棋上挑戰人類成功之後,所有人的目光就聚焦在了圍棋這項古老的東方棋類。然而對計算機來說,圍棋似乎是個比國際象棋更“難”的東西。1985年企業家應昌期先生懸賞一百萬美金尋找能夠打敗人類職業棋手的計算機,一直未果。進入21世紀之後,研究者們開始探索一套被稱為“蒙特卡洛樹搜尋”的全新思路,以日本的ZEN(天頂圍棋)和法國的CrazyStone為代表的一流圍棋程式沿著“蒙特卡洛方法”的思路不斷改進,而去年正式揭開面紗的AlphaGo更是將人工智慧圍棋博弈帶向新的高度,繼去年10月份攻克歐洲圍棋冠軍樊麾,昨日又在南韓首爾首戰告捷戰勝世界圍棋冠軍李世石。

    如果說對棋局盤面的靜態評估好比人類棋手的“感覺”過程,那麼動態評估就好比人類棋手的“推理”過程。在靜態評估中機器得益於人類專家的很多幫助,而動態評估的部分是人工智慧大顯身手的地方了。“動態評估”試圖對從當前盤面出發“有可能”出現的大量局面變化所導致的結果進行預判,並綜合分析所有這些可能性,對當前盤面進行一次評估。這也是人類在動態環境中做決策時經常使用的策略,也就是希望透過“看得更遠”來提前發覺潛在的危險或機會。

    代替AlphaGo落子的日本棋手正在和李世石對弈

    基於一套給定規則,任意給定的棋局盤面會有一個“合法走法”的集合,其中每個走法都會把棋局引向一個新盤面,而這個新盤面又會有自己的另一個合法走法集合,每個走法又對應一個新的盤面。如果假設每個盤面都有種合法走法,那麼從當前盤面走一步之後一共有N種可能“到達”的盤面,兩步之後有N^2種可能盤面,三步之後有N^3種可能……如此展開下去,從最初的給定盤面經過M步之後可能到達N^M種不同的盤面,它們就是在“未來N步內所有可能的局面變化”。

    國際象棋的人工智慧遍歷圖

    圍棋的人工智慧遍歷圖

    從給定盤面開始的局勢變化的複雜度是隨考慮的步數呈指數級增長的,這意味著從原則上不存在準確計算盤面的最優結果的有效方法。不過這對於對局雙方來說未必是個壞訊息——雖然AlphaGo無法計算最優解,對手也同樣無法計算。事實上一個遊戲之所以成為遊戲,恰恰就是因為對局雙方都相信對手不具備完美決策的能力,而自己要做的只是比對手“錯得更少一些”。

    另一方面對於AlphaGo來說,“不可能對局勢變化的所有可能性進行有效計算”意味著想做得比對手更好需要從原理上解決兩個關鍵問題: (1)決定一個“篩選策略”,從所有從當前盤面出發有可能導致的變化中選擇一部分作為“我們實際考慮的那些局面變化”;(2)決定一個“彙總策略”,把所 有實際考慮的變化的靜態評估結果綜合起來,對當前盤面的勝率完成評估。

    人工智慧的核心--深度卷積神經網路

    深度卷積神經網路是人工智慧的核心基礎,諸如現在主流的人工智慧的應用人臉識別、影象分類、天氣預報等。19年前,超級計算機“深藍”擊敗國際象棋冠軍卡斯帕羅夫的新聞相信很多人耳熟能詳,雖然當時的“深藍”從狹義角度來看並算不上是人工智慧,其強大之處就是使用了超級計算機作為運算支撐使用遍歷方式最終打敗人類,但是相對於國際象棋,圍棋擁有361(19x19)個點複雜度遠超國際象棋,如果使用遍歷其運算量和資料儲存量現階段甚至很長一段時間超級計算機也無法滿足這樣的需求。

    所以AlphaGo轉而使用了蒙特卡洛搜尋樹演算法,是對一類隨機演算法的特性的概括。例如使用蒙特卡洛搜尋樹演算法從100個蘋果籃子中取出最大的蘋果,每次閉眼拿1個,挑出最大的。於是隨機拿1個,再隨機拿1個跟它比,留下大的,再隨機拿1個……每拿一次,留下的蘋果都至少不比上次的小。拿的次數越多,挑出的蘋果就越大,除非拿100次,否則無法肯定挑出了最大的。這個挑蘋果的演算法,蒙特卡羅演算法是儘量找好的,但不保證是最好的。

    對於圍棋而言,由於遍歷資料的龐大,只能透過部分遍歷的方式尋找最優下棋的方式,所以會出現獲得真正的結果之前,無法知道目前得到的結果是不是真正的結果。

    AlphaGo的兩大法寶--價值網路和策略網路

    作為人工智慧的核心,AlphaGo更是使用了兩個大腦,也就是Value Networks(價值網路)和Policy Networks(策略網路)兩個計算網路,使用Value Networks來評估大量的選點,而以Policy Networks來選擇落子,並且開發了一種新式演算法來結合蒙特卡洛樹演算法和以上兩個神經網路。

    在Google DeepMind工作的黃世傑,2015年在ICLR發表了一篇關於“深度神經網路”的論文,指出從網上對戰平臺KGS可以獲取人類圍棋選手對弈的棋局,並且彙總這些棋局,得到了最初的3000萬個樣本,也就是棋譜,這奠定了AlphaGo的下棋基礎,與人類學習下棋有著異曲同工之妙。這3000萬個樣本可以用{a,b}統計,其中a是一個19x19xn的二維棋局,輸入到一個卷積神經網路分類,分類的目標就是落子向量A,透過不斷的訓練,儘可能讓計算機得到的向量A接近人類高手的落子結果b,這樣就形成了一個模擬人類下圍棋的神經網路,然後得出一個下棋函式F_go(),當盤面走到任何一種情形的時候,都可以透過呼叫函式的形式從資料庫獲取最佳的落子位置。

    似乎這樣的程式只要積累到足夠多的棋譜資料庫作為支撐,那麼就可以打造出一個虛擬的頂級圍棋高手,但由於圍棋局面資料無限龐大,單純的棋譜收集並不能支撐起成為一個頂級高手,而黃世傑也介紹,這樣打造出來的虛擬圍棋高手只能達到業餘六段的水準,和專業級的選手還有很大的差距,更何況是專業9段的李世石。

    早先公佈的世界圍棋人工智慧得分排名

    於是AlphaGo開始將蒙特卡洛樹演算法結合在一起,它不再機械的呼叫函式庫,而是一種類似於人類進化的過程,黃世傑的老師Coulum讓兩個機器人在棋盤上隨機下棋,那麼下到最後,必然會有一個機器人會贏,那麼將贏的那一方法記下來(M0,a0),並將分值提高一些:新分數=初始分+r。於是使用(M0,a0),例如(M0,a0)方法的分值為2,其它方法依然是1,理論上來說再次選擇(M0,a0)方法的機率會更高一些,而要和(M0,a0)方法假象中的對手也同樣適用了這樣的方式更新了自己的分數,例如會以a1作為應對,就這樣如法炮製,Coulum就這樣不斷的和那些不怎麼是高手的虛擬對手下棋,這樣那些不錯的落子方案就會分數越來越高,等到Coulum在想象中完成了10萬盤棋後,選擇他推演過次數最多的那個方案落子,實際上這個時候Coulum才下了第一步棋。

    不過Coulum的程式仍然有侷限性,因為初始的下棋方法太過簡單,需要使用更高效地扔骰子,那如何更搞笑的扔骰子呢?於是黃世傑改進了蒙特卡洛樹演算法,一開始就不在使用(M0,a0)這種擲骰子的方法,而是先根據F_go()計算的結果來得到b可能的機率分佈,以這個機率來挑選下一步的動作,每次棋局下完之後,新分數=調整後的初始分+透過模擬得到的贏棋機率。

    當然執行過程中會遇到某一步唄隨機到很多次,這個時候就應該依據模擬得到的機率而不是F_go(),所以F_go()的初始分會被打個折扣:調整後的初始分=F_go()/(被隨機到的次數+1)

    於是下棋過程中F_go()就可以快速定位到相對優秀的落子方案,又給了其它位置一定的機率,不過這樣做了後,就出現了一個問題,F_go()的計算速率太慢,完全無法滿足圍棋比賽的需求,如果和真正的選手比賽時間根本就不夠用。於是新的F_go_Fast()函式被推出,它把網路層數、輸入特徵都減少,耗時相比之前最初增加並不多,基本可以滿足正常下棋的需求,只需要在開始的時候使用F_go()走一些步數,然後在後續執行F_go_Fast(),兼顧準確和效率。

    除了這些對戰,AlphaGo還加入了人類無法實現的左右互搏,意思就是使用F_go(1)和F_go(1)對弈,得到了一定一定量的新棋譜,加入到訓練集當中,訓練處新的F_go(2),一次類推,這樣就可以得到勝率更高的F_go(n)。不過左右互搏並沒有帶來提升,相反還不如F_go(),於是黃世傑最後使出了評價函式v(s)這一招,在訓練v(s)的時候,開局還是使用F_go()走n步,這樣可以生成更多的開局,不過黃世傑覺得開局還是不夠豐富,於是在n+1步的時候再隨機擲骰子,並記下這個狀態,然後和F_go(n)對弈,知道比賽結束,獲得結果r,透過這種方式獲取足夠多的樣本,再透過神經網路,把最後一層的目標改成迴歸而非分類,就得出了v(s)函式,輸出贏棋的機率。

    F_go()、v(s)以及蒙特卡洛樹演算法三者相互配合,使用F_go()作為初始分開局,每局選擇分數最高的方案落子,下到n步之後,改用F_go_Fast()下完剩下的棋局,同時呼叫v(s),評估局面的獲勝機率,就實現了佈局和快速的雙重效果,剩下的就是不斷的學習過程了。

    人工智慧會犯錯誤嗎?

    人們總是說機器是不會犯錯誤的,在AlphaGo與李世石的對弈過程中,一些媒體或者專家經常會說到“AlphaGo不會犯錯誤”,並擔憂李世石會敗給AlphaGo,最終結局並不盡如意,最終李世石落敗。自詡的人類恐怕要對於後面的四場比賽開始惶恐起來。

    實際在比賽的過程中AlphaGo有多次機會可以拿下棋局,卻一直對弈到近4個小時候才分出勝負,期間AlphaGo由於並沒有採取正確的措施,按照人類的理解認知,實際上人工智慧已經犯下了錯誤。畢竟對於非公理性的演算法,機器是無法精準獲取最優結果的,AlphaGo採用的蒙特卡洛搜尋樹遍歷對於圍棋來說很難做到精準下棋,畢竟計算量擺在那兒,實際上對於圍棋而言至少現階段不可能使用完全的遍歷方式獲取最優結果。

    實際上所有的人工智慧對於未知領域的嘗試都是很難窮盡結果的,這也是為什麼人工智慧一直被人類語言很難完全取代人類的原因,人工智慧在某些領域成功是科技進步的表現,但是對於人工智慧未能涉足的領域,我們可以認為人工智慧會犯錯誤而無法在這一領域應用,當人工智慧超越人類的過程也是不斷犯錯誤的過程,你覺得呢?

    人類被人工智慧打敗 需要畏懼嗎?

    最終回到AlphaGo是否可以戰勝圍棋世界冠軍李世石問題上來,雖然從目前已經對局的情勢來看,AlphaGo最終打敗世界冠軍李世石的機率很大,另外AlphaGo快速的成長速度是任何一個圍棋世界冠軍無法企及的,隨著計算機效能的不斷增強,蒙特卡洛搜尋樹遍歷將進一步提高命中機率,這樣在人腦提升緩慢的背景下,AlphaGo在圍棋對弈上全面戰勝人類只是早晚的事情,正如當時“深藍”歷經數年才艱難戰勝人類,自此以後將人類甩在了身後。

    大量的計算機專家,配合大量的世界圍棋高手,在演算法上不斷革新,再配合不斷成長的超級計算能力,不斷的從失敗走向成功,最終打造出圍棋人工智慧。樊麾、李世石是敗給人類智慧的結晶。

    賽後的李世石並不是太悲觀,對接下來的對弈依然充滿信心

    而棋手和圍棋從業者們,出於可以理解的感情,總是希望並認為這一天不會來的那麼快,但他們絕對不會拒絕甚至仇視這種進步。其實我看到的很多人,都一直期待並讚許著人工智慧的進步,甚至很多職業高手還親身參與和幫助著人工智慧圍棋專案的研究。

    我們努力打造著一個“新我”,一個能戰勝自己的“新我”。其實並不是人工智慧打敗了人類,而是人類打敗了人類。所以最終的成功,是我們人類自己的成功,而不應該對人工智慧感到畏懼。

  • 8 # 震長

    在一局圍棋中,平均每一步的下法大約有200種可能,若全部計算的話,棋盤上可能出現的局面總數到了遠大於宇宙中原子總數的地步。因此,透過暴力窮舉手段預測所有的可能情況並從中篩選中最優勢走法的思路,並不適用於圍棋,所以AlphaGo選擇了別的下棋方式。

    支撐AlphaGo提高棋力、打敗人類選手的“秘訣” 有三個:深度神經網路、監督和強化學習、蒙特卡羅樹搜尋。

    1.深度神經網路是包含超過一個認知層的計算機神經網路。對於人工智慧而言,世界是被用數字的方式呈現的。人們將人工智慧設計出不的“層”來解決不同層級的認知任務,這種具備許多“層”的神經網路,被稱為深度神經網路。AlphaGo包含兩種深度神經網路:價值網路和策略網路,價值網路使得AlphaGo能夠明晰局勢的判斷,左右全域性“戰略”,拋棄不合適的路線;策略網路使得AlphaGo能夠最佳化每一步落子,左右區域性“戰術”,減少失誤。兩者結合在一起,使得AlphaGo不需要過於龐大的計算也能夠走出精妙的棋局。

    2.監督學習和強化學習是機器學習方式的不同種類。監督學習是指機器透過人類輸入的資訊進行學習,而加強學習是指機器自身收集環境中的相關資訊作出判斷,並綜合成自己的“經驗”。在初始階段,AlphaGo收集研究者輸入的大量棋局資料,學習人類棋手的下法,形成自己獨特的判斷方式。之後在不計其數的自己與自己模擬對弈,以及每一次與人類棋手對弈中,AlphaGo都能並根據結果來總結並生成新的正規化,實現自我提高。

    3.最後需要說的是蒙特卡洛樹,這是一種搜尋演算法,AI在利用它進行決策判斷時會從根結點開始不斷選擇分支子結點,透過不斷的決策使得遊戲局勢向AI預測的最優點移動,直到模擬遊戲勝利。AI每一次的選擇都會同時產生多個可能性,它會進行模擬運算,推斷出可能的結果再做出決定。

  • 9 # 手機使用者10430248831

    一個人對圍棋不理解,或理解不深,他如何贏棋?。狗不理棋的規則:不理解棋的大小:不理解棋的急所:不理解棋的大局它如何贏棋?

  • 10 # 方芝維智慧家居

    AlphaGo的第一作者David Silver還在MIT做post-doc的時候(也有可能是visit?),曾經和我們組師兄合作利用機器學習和蒙特卡羅樹搜尋玩《文明2》。當時也有不小的轟動:

    有興趣的同學可以參考專案主頁和論文 [1][2]。可以翻牆youtube的同學還可以看到一段遊戲影片。

    一、為什麼要用搜索?-------

    由於狀態數有限和不存在隨機性,象棋和五子棋這類遊戲理論上可以由終局自底向上的推算出每一個局面的勝負情況,從而得到最優策略。例如五子棋就被驗證為先手必勝 [3] 。

    遺憾的是,由於大部分博弈遊戲狀態空間巨大(圍棋約為),嚴格計算評估函式是辦不到的。於是人們設計了 (啟發式的) 搜尋演算法,一句話概括如下:由當前局面開始,嘗試看起來可靠的行動,達到終局或一定步數後停止,根據後續局面的優劣反饋,選擇最優行動。通俗的說就是“手下一著子,心想三步棋”、“三思而後行”的意思。

    二、哪些是“看起來可靠”的行動?怎麼評價局面的優劣?-------這裡就要引入遊戲論和強化學習裡面的概念了。在數學上,“最優策略”和“局面判斷”可以被量化成為函式表示局面狀態,表示下一步(走子)行動。在強化學習裡,兩者被稱為 策略函式(policy function) 和 局面函式(value function),前者衡量在局面下執行能帶來的價值,後者衡量某一局面的價值,越大的值表示對當前行動的選手越有利。

    Q和V函式是對我們所謂的“棋感”和“大局觀”的量化。有了這兩個估值函式,在搜尋的時候我們儘量選擇估值更大的行動,達到縮小思考範圍(減少搜尋分支)的目的。同時即使在未達到終局的情況下,我們也可以依靠局面函式對當前局勢優劣做判斷。

    那麼如何得到精確的估值函式就很重要了。由於不能透過列舉狀態空間來精確計算Q和V,傳統的做法是人為的設計估值。例如五子棋的局面可以依靠計算“三連”、“四連”等特徵的數量乘以相應的分值來估算。這裡就涉及到識別特徵和衡量特徵分值兩個問題。對於更加複雜的遊戲(例如文明、圍棋等),現代的做法是利用機器學習和大量資料,自動的找到特徵,同時擬合出估值函式。AlphaGo利用深度學習達到了該目的。

    三、蒙特卡洛樹搜尋(MCTS)-------蒙特卡洛樹搜尋是集以上技術於一身的搜尋框架,透過反覆模擬和取樣對局過程(稱為Rollout)來探索狀態空間。可以看出它的特點是非常容易並行、可任何時候停止(時間和收益上的平衡)、引入了隨機性取樣而減小估值錯誤帶來的負面影響,並且可以在隨機探索的過程中,結合強化學習(Reinforcement Learning),“自學”式的調整估值函式,讓演算法越來越聰明。直觀一點的圖示如下:

    (a) 從當前狀態(帶有隨機性)的模擬對局,該過程可以並行:(b) 透過取樣和估值結果,選擇最優行動,並重復執行這個過程:

    (c) 如果選擇強化學習,則根據結果更新估值函式的引數 有興趣的同學可以閱讀AlphaGo或其他相關論文。

    四、總結-------

    AlphaGo結合了3大塊技術:先進的搜尋演算法、機器學習演算法(即強化學習),以及深度神經網路。這三者的關係大致可以理解為:蒙特卡洛樹搜尋 (MCTS) 是大框架,是許多牛逼博弈AI都會採用的演算法強化學習 (RL) 是學習方法,用來提升AI的實力深度神經網路 (DNN) 是工具,用來擬合局面評估函式和策略函式

    這些都不是AlphaGo或者DeepMind團隊首創的技術。但是強大的團隊將這些結合在一起,配合Google公司強大的計算資源,成就了歷史性的飛躍。

    一些個人見解:MCTS 、RL 和 DNN這三者,前兩者讓具有自學能力、並行的博弈演算法成為可能,後者讓“量化評估圍棋局面”成為了可能(這個

    @田淵棟大神的帖子裡已經解釋了)。對於AlphaGo來說,這每一個模組都是必要的,DeepMind論文中已經展示了各個模組對於棋力的影響:五、RL / MCTS 的其他應用-------除了最開始提到的《文明2》遊戲和圍棋,MCTS和RL還可以應用到各種博弈、遊戲場景下。因為評論裡有不少討論,這裡增加幾個有意思的乾貨:Flappy Bird:不知道大家還記不記得這個曾近很火的讓人抓狂的遊戲,有人利用強化學習讓AI 從0 進化到了100多分: Flappy Bird RL by SarvagyaVaish星際母巢之戰AI:Berkeley Overmind,曾經得過AI比賽冠軍。飛龍甩得飛起 (主頁有youtube影片,需翻牆)[4]紅白機遊戲:DeepMind在圍棋之前利用RL和DNN玩紅白機小遊戲,同樣在《自然》雜誌上發表 [5]。GitHub主頁其他小八卦作為論文第一作者的David Silver,整個Phd都投身在了蒙特卡羅搜尋、計算機圍棋和強化學習的領域。十年磨一劍。AlphaGo的成功離不開團隊和個人兢兢業業的努力。據說DeepMind CEO Hassabis 和 David是一對大學時期的好基友?David也是因為Hassabis教他圍棋而入了這個坑..(?)

  • 11 # 陌上飄塵26303570

    你問的這個問題涉及谷歌公司的商業機密,沒人能夠確切瞭解。只知道AIphaGo的計算是以被稱為“神經網路”的雲計算為基礎的,能夠透過海量對弈(甚至包括自我對弈)來不斷提高棋藝水平。

  • 12 # 集智俱樂部

    現在這個AlphaGo主要是機器學習加上蒙特卡洛斯搜尋這兩套技術合在一起研發出來的。機器學習主要是機器和機器下棋,透過強化學習演算法,自己和自己下棋,積累大量的下棋經驗,這是很重要的一部分。相當於我們用一套人工神經網路,叫價值網路來實現這部分的走法。還有一部分叫蒙特卡洛斯搜尋,是屬於經典的人工智慧演算法,是把隨機性和基於樹的搜尋結合在一起。然後,這兩部分是如何結合的呢?在蒙特卡洛斯搜尋的時候,要用到啟發式資訊,而這個啟發式資訊恰恰是機器和機器自我學習生成的價值網路來提供的,所以AlphaGo把經典的人工智慧和新的深度學習融合在一起了,透過這樣一種方式才變得這麼厲害。在早期,和李世石對戰的時候,加了政策網路,也就是把和人類下棋的經驗做到了政策網路中,所以AlphaGo還在借鑑人類的經驗。而2017年初的把六十多個選手打敗的maser就沒有人類的任何經驗,完全是自己和自己下棋的方式學到的經驗,從而變得這麼厲害。AlphaGo目前來看,勝算是很大的,是能戰勝柯潔的

  • 13 # ZBJ豬八戒

    對於這個問題,我們還是直接訪問阿法狗吧!

    請問你是如何下棋的。阿法狗:旺旺

    那再請問,你是如何判斷勝率的。阿法狗:旺旺

    那說說你贏柯潔的感覺。阿法狗:旺旺

    那你對下次的比賽還有信心嗎。阿法狗:旺旺

  • 14 # AI中國

    【以AlphaGo為例扒一扒人工智慧的“思想”】

    如果你想了解AI的能力,AlphaGo可以是個不錯的開始的地方。那麼,AlphaGo到底是如何下棋的,它真的能夠看透對手的想法,真的理解圍棋嗎?我們先從圍棋開始說起。

    圍棋,就十秒鐘

    圍棋的規則很簡單。玩家輪流在棋盤上放置白色或黑色的石頭。

    如果一群石頭被對手的石頭包圍,它就被捕獲並移除。

    用周圍的棋子捕捉棋子。

    像白棋一樣包圍著大部分割槽域的其他棋子,就贏了:

    在比賽之後得分。黑色的左側,右側和頂部都有領地。白色的底部和左上角有領土。

    基本上就是這樣。

    為了理解為什麼這樣一個簡單的遊戲幾十年來一直困惑人工智慧的研究,把圍棋與國際象棋對比是有幫助的。

    幾十年來,有人說只要能下棋,計算機就是聰明的。然後,在Alan Turing發表第一個象棋演算法半個世紀之後,IBM(NYSE:IBM)Deep Blue超級計算機擊敗了世界冠軍Gary Kasparov。

    深藍的成功令人印象深刻,但是IBM的演算法與圖靈1950年的計劃基本相似。自從圖靈(Turing)發表第一個國家象棋演算法以來,深藍(Deep Blue)的計算能力已經增加了三百萬倍。

    一個小小的注意到的事實是:在深藍擊敗世界上最偉大的棋手的同一年,最先進的GO只達到了體面的初學者的技術水平。

    為什麼圍棋是最好的測試場地?

    這是一種“不同的思維方式”。

    深藍是以蠻力擊敗卡斯帕羅夫:因為它記住了大量的遊戲,它運用了戰術和戰略經驗法則,並且它比卡斯帕羅夫(儘管幾乎沒有)使用優越的處理能力可以更深入地預測未來的移動可能性。但是電腦無法掌握靈活的處理能力。

    國際象棋的可能性受到8×8棋盤和規則的限制,這些規則定義了你可以在哪裡移動特定棋子。相比之下,全尺寸的棋盤尺寸為19 x 19,你可以在任何地方使用圍棋。

    結果是棋手每次平均面對35次選擇。去平均值250個選項。這個數字被稱為問題的“分支因素”,它是AI的禍根。如果你自己乘以250次評估可能的反應, 你很快就會到達比宇宙中的原子數目多得多的位置,這將佔據世界上所有的超過一百萬年的電腦繪製出來的結果。

    事實上,直到去年,人們才真正計算出了多少。 (大約是2.081681994 x 10 ^ 170,或者用簡單的英文,二百個quinquinquagintillion。)

    可能的棋盤狀態的數量約等於2.081681994×10 ^ 170。

    由於沒有人或超級計算機能夠檢查所有可能性,玩家依靠感覺和直覺。對於一個有經驗的圍棋選手,一個動作可能是感覺是正確的。

    其次,量化一個移動的價值是非常棘手的。甚至搞清楚誰勝利了也是一個挑戰。

    國際象棋的棋子有明確的價值:棋子值1分、騎士3、一個車,5分。透過比較拍攝的棋子的價值,你可以粗略地瞭解誰贏了。深藍採用了數十個這樣的經驗法則來定位好動作。但是圍棋沒有固有的固定價值,他們只關係到彼此的關係。不確定的舉動價值使決策進一步複雜化。

    第三,大多數情況下涉及某種交易。訣竅是找出你的對手想要什麼,並強迫他們給你想要的東西作為回報。所以機器人的不變性就體現出來了。

    最後,你交易的東西有抽象的價值,而這些價值並不總是可以量化的。除了要點,玩家可能需要影響力(後來可能會有用的棋子),sente(選擇下一個玩的地方的自由度),還是aji(字面意思是“回味”,一個不可譯的日語術語,表示潛在的詭計:一位教學資源解釋道,就像是當你遲到的時候,鞋子裡有一塊石頭,很疼,結果你不能跑得這麼快,但是因為你遲到了,你不能停下來把它拿出來。

    這是一個簡單的例子。黑方可以用另外幾個動作來封鎖有價值的角點:

    黑色佔據角落的領域。

    或者,黑方可以將角落的領土換成白色。 作為回報,他們得到的棋子面向側面和中心,這可能在未來(影響力)有用。 標記的白色棋子被嚴重削弱,但對黑色後來(aji)可能變成一個複雜的滋擾。 現在輪到黑方了,他們可以放置在任何他們喜歡的地方(先知)。

    黑色交易角的潛力可以獲得有影響的一個序列。

    你可以看到不可能把精確的價值觀放在影響、aji和sente上。很像現實世界中相互衝突的價值 - 客戶服務,股票表現和企業風險緩解。機器難以把握這種權衡的細微差別,因為這些實體是抽象的、微妙的,在概念上是截然不同的。在0和1中也不存在共同的同義詞。

    儘管面臨這些挑戰,AI技術的穩步發展已經讓AlphaGo掌握了這個遊戲。這些變化體現了AI如何發展到現在的狀態並預示著未來。為了理解AI的前進方向,我們需要看看我們是如何達到現在的水平的。

    第一階段:按照我的說法去做(20世紀50年代到60年代)

    人工智慧的正式誕生髮生在達特茅斯學院1956年的一次會議上,正式舉行了一個宏大的前提:“智慧的每一個方面原則上都可以被精確地描述,以便能夠模擬一臺機器。

    AI的創始人從哲學家 - 數學家那裡得到了他們的線索,比如最近開發了邏輯專用符號的Gottlob Frege和Bertrand Russell。根據這種方法的領導者,情報的關鍵在於運用邏輯規則。他們迅速建立了可以派生重要的數學證明的程式,並且自信地預言,在短短的十年時間裡,計算機將會掌握國際象棋。

    但隨後進展遇到困難。沒有人預見到一個障礙。

    第二階段:規則和經驗法則(20世紀60年代末至21世紀初)

    隨著研究人員開始要求電腦解決複雜的現實世界問題,如診斷疾病或翻譯俄語,事實證明,這些複雜問題中的許多問題只能在理論上解決,而不能在實踐中解決。解決問題的時間和記憶要求往往會隨著你有多深的尋找答案而呈指數級增長。研究人員放棄了“人工智慧”一詞,以逃避學術界和研究界的痛苦。

    從某種意義上說,拯救AI是由於勞動分工。研究人員並沒有試圖對那些可以純粹用邏輯做任何事情的機器進行程式設計,而是降低了他們的期望,並開始針對具體的問題量身定製個別的程式。限制程式需要解決的問題有助於限制必須搜尋的可能解決方案的數量。

    程式設計師越來越多地開始按照人們的思維方式對AI進行建模。這通常意味著使用啟發式或心理捷徑。

    我們一直使用啟發式:雞肉變得越粉紅色,你應該把它放在烤箱裡的時間越長。如果西紅柿堅挺,就證明吃得很新鮮。需要更多的味道?新增更多的調味料。

    這些小知識是至關重要的。我們不能沒有他們,因為沒有足夠的時間去完美地完成任何事情。

    第一次嘗試構建Go-playing計算機的方式也是一樣的。一段程式碼估計遊戲得分,有一些例行程式可以識別先知,識別如何保護重要的棋子不被捕獲,訪問一個普通序列的庫,等等所有高階玩家使用的專業技能。

    有了這些能力,電腦會考慮幾個動作。對於每一個動作,它都會考慮許多可能的反應,直到它產生一個類似於樹的可能的結果模型。目標是透過沿著一條讓對手沒有好的選擇的路徑來搜尋遊戲樹中的“最不好的”結果。深藍也是如此。

    當然,正如一名廚師所生產的食物取決於食譜的質量一樣,基於啟發式的人工智慧只有人類可以烹飪的啟發式才是好的。但是,當可能性的數量巨大的時候,這種做法還不能勝任。

    因此,經過幾十年的緩慢進展,基於啟發式的人工智慧只取得了中級業餘愛好者的實力。他們是僵化和可預見的對手。記憶和規則遵循不夠直觀、靈活富有創造力。進一步的進步需要革命。

    第三階段:統計

    隨著蒙特卡洛樹搜尋技術(MCTS)的成功,2006年取得突破性進展。

    這個方法比較陳舊,今天它被用來加強物流和生產管理。 MCTS已經被應用於車輛路線、航線排程、包裝、機器人運動和財務。它已經進入了像“全面戰爭:羅馬II”,“拼字遊戲”,“撲克”和“國際象棋”等流行戰略遊戲。

    MCTS的名字聽起來可怕,但這個想法很簡單。它用一個簡單的統計技術,即蒙特卡羅模擬來代替人類的啟發式演算法。當你的財務顧問告訴你,你的投資組合將在你退休的時候生效,那是他們在使用蒙特卡洛模擬。

    和以前一樣,你從樹搜尋開始。但是,計算機不是依靠硬編碼的Go啟發式來估計最佳結果,而是模擬一系列隨機遊戲,以檢視誰更有可能獲勝。

    生成隨機數是計算機可以很快做到的事情,而且這是非常有效的。 MCTS削減了中間人的概念,如影響力和aji,提供了一個直接的途徑,你最終關心的是:獲勝。

    這就是今天支配AI的哲學:演算法不再純粹是合乎邏輯的。他們也不模仿人類的思維方式。他們只是理性地追求目標。 (由計算機科學家Stuart Russell和Peter Norvig提出,思想與行為,人為與理性的區別為人工智慧的不同方法提供了一個有用的框架。)

    但MCTS從根本上與人類解決問題的方法不一致。所以基於MCTS的AI顯示出奇怪的怪癖。為了真正理解未來有多少自主機器會做出決定,必須瞭解MCTS的深度陌生性。與MCTS對手進行比賽可以讓他們和一個知道比賽規則的聰明的外星人面對面地坐著,但是雙方都從來沒有見過真正的比賽。

    在Go遊戲的早期階段,玩家通常會堅持前四行。 (在角落和側面比在中心更容易確保領土)。但是使用MCTS的AI程式通常會在中間的某處放置一個棋子。

    下面是一個例子,從一個真正的遊戲中採用了一個相當強大的名為Fuego的AI軟體:

    當然,Fuego的舉動是連貫的。 這個棋子擴大了底部的白色棋子的潛力,限制了黑色的潛力,如果稍後受到攻擊,白色的兩個棋子可能成為生命線。

    不尋常的舉動有三件事。

    但是,這是奇怪的。在MCTS的AI作品中,這種“做任何事情都可以達到目標”的思維模式,可能會導致麻煩,因為我們希望我們的自駕車、自動專職助手和機器人保姆不僅能勝任,而且可以預測與人類相關的事情。

    其次,使用MCTS的人工智慧程式可能會出現一個結果。獲勝(因此避免風險)MCTS軟體往往扮演看似不合理和有害的舉動。失去MCTS計劃更令人興奮,他們傾向於壯觀的自我毀滅。

    原因很簡單:人類認為我們透過提高我們的領先優勢(如果我們贏了)或減少赤字(如果我們輸了)來贏得比賽。但是MCTS軟體試圖提高勝利的可能性。它不區分5點損失和50點損失。所以,當一個情況是沒有希望的時候,MCTS再也不能把好的選項和愚蠢的選項區分開來。在打敗的道路上,每條道路看起來同樣嚴峻。

    隨著AI軟體的成功機率下降,你會開始一波恐慌浪潮在崩潰中達到高潮。這是一種奇怪的感覺,就像看股票市場的暴跌。

    如果老的樹搜尋模型過於僵化,那麼MCTS的方法就體現了一個古怪的數字運算專家,沒有經驗。有時沒有常識的超理性與瘋狂是無法區分的。

    第四階段:模式識別(2010年至今)

    研究人員發現了一種在模式識別中根植MCTS的方法,最後的重大突破來臨了。當時令人驚訝的關鍵,竟然是一種受人類大腦啟發的舊機器學習技術。

    人工神經網路是基於20世紀50年代以來的想法。但是他們長期以來一直被認為是機器學習的一個死水。訓練一個神經網路需要大量的資料和大量的計算能力,這是直到最近才能得到的東西。網際網路、大資料、分散式計算和雲端儲存等重要技術趨勢的融合現在已經改變了這種趨勢。

    神經網路構成了Facebook面部識別和新聞饋送策略技術,Google翻譯,自駕車視覺以及無數其他應用程式的支柱。他們特別擅長處理影象和聲音。

    神經網路實際上並不模仿大腦,這是一個常見的誤解,類比有助於理解其功能。

    像軸突網路一樣,一個神經網路建立一個連線資料節點網路,稱為人造神經元。深度神經網路包含許多這樣的節點層。當你聽到人們用“深度學習”這個詞時,這就是他們的意思。

    腦神經元透過不同連線強度的途徑將電荷傳送到其他神經元進行通訊。人工神經節點包含稱為權重的數字,表示它們對下一層中的每個節點施加多少影響。

    隨著原始資料流經神經網路,每層節點就像一個過濾器,透過越來越高階的功能來轉換資訊。

    為了訓練一個神經網路,你舉個例子,看它是否輸出正確的東西,如果不是透過根據特殊的數學函式改變權重來糾正錯誤,並重新舉例說明,最終,在練習了數百萬個例子之後,它會做得更好。 (就像一隻鴿子一樣)

    神經網路學習速度緩慢。他們需要大量的例子,他們需要很長時間來訓練,因為每次收到無數的例子時,必須根據數學公式調整數千個權重。但有一個好處:神經網路非常敏感,可以捕捉到很多細微的資訊。

    如果特定領域的樹搜尋規則是跟隨機器人,並且MCTS是理性的外星人,神經網路就像一個孩子。

    AlphaGo是如何工作的?

    DeepMind訓練AlphaGo的方式與教育幼兒識別貓的照片的方式相同。你可以給它看一個動物圖畫書,並指出所有的貓。接下來,你可能會一起去寵物商店,讓孩子試著挑選貓,讓他們知道他們得到的是正確的,哪些是錯的。最後,你釋放你的雛鳥到世界上,生活將提供他們需要的任何反饋,以糾正任何嚴重的貓識別錯誤。

    DeepMind開始為AlphaGo提供3000萬圖片,這些圖片來自一個流行的線上Go伺服器開發的強大玩家。一旦AlphaGo識別出一個,它就會練習以前從未見過的影象變得更好。最後,AlphaGo玩了數以百萬計的練習遊戲,以獲得反饋。

    AlphaGo還學會了透過研究數以百萬計的遊戲位置來估計一個特定位置將導致勝利的機率。然後透過玩數百萬遊戲來加強這種知識。

    這來自於我和Leela的比賽,這是一個基於神經網路的強大的圍棋遊戲。

    由Leela的神經網路生成的移動機率熱圖。比較熱門的領域是那些神經網路預測有更好的選手選擇的機率。

    擁有這張地圖可以使AlphaGo專注於最有前途的分支,這使得蒙特卡羅的預測更準確。結果是比以前的方法更加強大的戰略智慧:

    從1990年到2006年,一條綠線表示樹形搜尋曲線向上蜿蜒曲折,藍線表示MCTS接近並越來越接近y軸,專業標記,紅線表示AlphaGo在2016年躍升至頂端圖形。

    樹搜尋排名是基於不頻繁的人機殘障挑戰的結果的估計。 MCTS排名是以KGS記錄為基礎的。 AlphaGo根據官方比賽進行排名。

    AlphaGo在DeepMind倫敦總部秘密舉行首場比賽,與當時的歐洲冠軍範輝對抗。沒有電腦曾經贏過專業人員。 AlphaGo贏得了比賽5-0。

    幾個月後,當DeepMind透露了AI最偉大的里程碑之一的時候,它也宣佈在一個多月的時間裡,AlphaGo將面對我們這一代最出名的玩家 - 一位名叫李·塞多爾的大師。這是“人與機器”卡斯帕羅夫 - 深藍比賽的復興。

    也許不到眼前

    但是AlphaGo的遊戲記錄讓AI軟體對能夠贏得下一個挑戰的希望產生懷疑。他們沒有透露具有創造力的超級智慧天才。看起來,AlphaGo似乎只是學會了模仿教科書去做得非常好。

    AlphaGo的謹慎風格源於其訓練資料的偏差。網站流量分析證實,DeepMind建立AlphaGo學習課程所用的英語Go伺服器與美國和日本的玩家非常相像,這是業餘愛好者仍然玩傳統圍棋的原因。這提醒人們,訓練資料中的細微偏差可以完全改變神經網路的個性。隨著人們越來越依賴大資料,這個問題將變得越來越重要。

    尤其值得一提的是,南韓頂級專業人士Myngwan Kim發現了早期AlphaGo的未發明性。

    在棋盤底部,黑方侵入了AlphaGo的領地。根據一個非常常見的序列,AlphaGo一定已經研究過無數次了,接下來是白色。這就是它的工作原理。

    當然,AlphaGo做到了。

    一個圍棋棋盤上的底部有一個白色的盒子,上面有白色的棋子。當更多的黑棋子在下方時,盒子變成黑色,白色的棋子被下面的黑色棋子包圍,上面有兩個箭頭指向它們。

    這個序列應該是一個公平的交換——黑方接受白方的領地,白方對中心產生影響。

    但這次是錯誤的。你可以看到黑色的兩個棋子(三角形的標記)否定了懷特的預期影響,並威脅到白色的標記棋子。在這一場比賽中,懷特幾乎沒有表現出放棄下半部分的底牌。

    AlphaGo可以模仿人類,但它不能產生新的想法。

    計劃:AI變得具有好奇心

    AlphaGo可以規劃未來。當它不知道該做什麼的時候,它會先測試,就像人類一樣。

    在下面的例子中,AlphaGo(白色)不確定接下來要玩什麼,因為它不知道對手是想要角落還是外面。但AlphaGo可以強制其對手展示其計劃,以便AlphaGo能夠以最佳方式進行響應。

    下面的例子實際上來自一個AlphaGo的更高版本與自己對抗的遊戲。 探測和迫使的密度是驚人的。

    令人難以置信的是,沒有人明確地向AlphaGo教授關於未來的實驗或計劃。 好奇的行為是AlphaGo自學的東西。

    世界對神經網路來說,是很混亂,而一個神經網路卻看到了可能性:“兔子有80%,鴨子有15%,手巾有5%。”

    我們的視錯覺體驗模仿了這種視覺會是什麼樣子。 著名的鴨兔幻覺包含鴨子或兔子的各個方面,因此我們看來是任何一個:

    透過一個神經網路來觀察發現每個動物身上有一個動物園。 谷歌和麻省理工學院(MIT)於2015年合作,設法梳理出一些神經網路可以看到的更高層次的特徵。 夢幻般的結果揭示了一種普遍存在的想象力。

    像一個pareidoliac注意到斗篷中的魚眼球,AlphaGo看到奇怪的特徵,併產生我們永遠不會發生的聯想。

    儘管它有驚人的能力,但AlphaGo並不完美。而在第四場,李在石就破解了它的程式碼。在比賽的大部分時間裡,李在石允許AlphaGo欺負他,為他的數字對手留下小小的優勢,以確保自己的領地是安全的。然後,李在石在一次冒險的攻擊中賭博整個遊戲。

    這個策略是有效的,因為它迫使AlphaGo進入一個令人眼花繚亂的複雜和獨特的情況,其模式識別軟體無法匹配人類的直覺。

    李在石表示,他直觀而迅速地看到了這一舉動,AlphaGo的模式識別估計了李在石不到1萬分之一的情況。

    現在機器變得困惑和不知所措。 它粗暴地試圖挽救它右邊的陣型,反而失去了更多的領土,然後莫名其妙地把棋子放到左下角堡壘。 總之,AlphaGo的崩潰持續了很久。感覺就像看足球比賽:

    深度學習的快速發展覆蓋了公眾的想象力,這種技術是一種不可戰勝的力量。 但神經網路面臨著實際的限制。 第四場中AlphaGo的崩潰揭示了三個這樣的缺點。

    首先,神經網路比人類學習效率低。 他們依靠大量的經驗,所以在非常情況下可能會失敗。

    其次,他們的失誤可能是毫無意義和莫名其妙的。 一個Go初學者可以把這12個動作識別為非理性的,而左下角的棋子就像是無用的。

    這裡還有一個例子:一組Google的研究人員訓練神經網路,以95%的精度寫影象標題。 但看看它的一些錯誤是多麼的不尋常。

    第三個問題是從深度學習的行為主義方法到人工智慧。儘管DeepMind在更高版本中修正了AlphaGo崩潰的原因,但是由於神經網路的黑盒質量,沒有人會理解AlphaGo如何犯下原來的錯誤。我們可能會學習神經網路的預測能力,但是如果缺少解釋能力,我們就不願意將它們賦予充分的自主權。

    一份2017年“人工智慧”報告突出了以下一些問題:

    目前大資料和深度學習的進展週期還沒有系統地解決工程“可用性”:可靠性,可維護性,可除錯性,可進化性,脆弱性和可攻擊性等等。

    此外,目前還不清楚現有的AI範例是否適用於任何型別的軟體工程驗證和驗證。這是一個嚴重的問題。

    最後,鑑於AI過去的適應和開始,許多研究人員仍然有點懷疑,誇大的期望不會讓位於一個新的、不可預知的進展障礙。

    10月份推出的AlphaGo Zero甚至不需要向人類學習。根據“自然”雜誌上的一篇文章,只用遊戲的規則和三天的練習,就可以擊敗AlphaGo。經過40天的訓練,它擊敗了AlphaGo Master 89-11。奇怪的是,AlphaGo Zero的開發並沒有看到人類的遊戲比深奧的大師更加人性化。

    然後,在十二月初,DeepMind設定了一個名為AlphaZero的版本,這是國際象棋專業人員用於自己訓練的高階象棋AI。在學習國際象棋規則的四個小時內,AlphaZero超過了Stockfish,三天後,它在一場非正式比賽中摧毀了以前的卓越象棋AI。

    go可能只是一個遊戲,但它表達了現實生活中所帶來的許多相同的智力挑戰。 DeepMind已經將其機器學習發現轉化為推薦醫學治療的AI軟體。許多其他人也在使用AlphaGo技術來診斷,還有自動駕駛車輛和聊天機器人。

  • 中秋節和大豐收的關聯?
  • 韭菜和雞蛋怎麼吃營養價值最高?