首頁>Club>
人工智慧“阿爾法狗”實力強大眾所皆知,2016年底至2017年初,“阿爾法狗”升級版Master在弈城網和野狐網上60連勝,橫掃人類高手,已是公認為世界第一。但,人工智慧在圍棋上真的沒有弱點嗎?
10
回覆列表
  • 1 # 佩奇音樂

    對於計算機而言,堂堂正正贏下李世石一盤已經證明了自己的進步足夠讓人類瞠目,最可怕的是,它會不斷進化。所以人工智慧的話題還會被繼續探討,而對於大眾而言,不懂圍棋、不懂科技,沒關係,還是可以在人類趨勢上追趕潮流滴,人工智慧的話題絕不落伍。

      當然現在下什麼結論都是為時尚早,代表人類智慧的李世石說:“第一盤輸了並不會動搖我的內心,我認為比賽才剛剛開始,現在來評價Alpha Go太早了。”

  • 2 # 弈鹿圍棋

    人工智慧就像一個冷血殺手一樣,思維縝密,落子精確,步步見血封喉!這種精確,就像當年的李昌鎬在官子階段,毫無失誤一樣!那時候的中國棋手在國際大賽中遭遇李昌昊時往往發出哀嘆——誰能破了他!

    是的,誰是李昌昊的破壁人?!現在答案已經明瞭了,時間。英雄遲暮,李昌昊也擋不住。30歲就是個坎!李昌昊終於不再是神話!李昌昊終究是個人,不是神!

    可是,TMD人工智慧呢?人工智慧不會老,人工智慧也不會累,他可以無休無止的迭代,他可以同時和人類所有的頂尖棋手進行車輪戰!只要有電就可以!

    說到這裡,你們知道人工智慧的弱點是什麼了吧。他需要電!把電斷了,他還能幹嘛?一堆廢鐵!他是人造出來的怪物,人當然可以毀了他!如果他有一丁點反叛人類之心的話。

  • 3 # 穀雨醇

    現在的人工智慧下圍棋,肯定是有弱點的,阿爾法狗是科學家用千萬盤人類棋譜去訓練一段機器學習程式,讓它熟悉人類的下法,並且學習人類評估棋局的方式,自動推導演算勝率最高的招法,在阿狗與小李的比賽中,已經證實了這是行得通的,在這個基礎上繼續增大訓練量,提升機器配置,大家幾乎都相信人類是無法戰勝機器的,至於有些人提出的找程式的bug來戰勝它,搞大型對殺來戰勝它,下模仿棋來戰勝它,或者其他的各種人類戰勝機器的說法,我相信肯定是行不通的,阿狗可以時時刻刻的自我對戰來提升自己的感覺,即使有過bug,也會逐漸在之後的訓練中得到彌補,下棋的都有一種體驗,就是棋局進行的過程中,大部分都處於一種兩難的境地,取勢還是取地?出頭還是就地做活?殺掉對方還是僅僅封住對方?這完全不是那種對與否的問題,而僅僅是一種選擇,一盤棋中走的大部分棋都不可能一槌定音的決定棋局的勝負,甚至不能決定某塊棋的死活和發展,即使機器有次出了bug,走了壞棋,人類想一擊中的打倒機器也是難上加難的事,谷歌的黃博士在測試阿爾法狗的升級版master時,自己也承認過有幾次做為master的人肉手臂出現了失誤,看錯了機器選點,下錯了,但仍然沒有妨礙master橫掃網上所有中日韓高手這個事實,也有人說人類用時不夠,增加人類用時就能打敗機器,這是一個很難界定的事,多長時間算夠?總的來說,人類大腦容量決定人類能夠承擔的計算量是有限度的,不可能超過機器的計算量,過長的時間人類只會因為計算過多的步數而忘記之前的計算,但每條思路的計算深度仍然比機器少很多,所以延長人類用時依然是以人類短處來對抗機器的長處。

    人類打不過,那麼我們能學到機器的招法嗎?我想,這也很難!原因就是人腦中沒法裝進去那麼多gpu,cpu。沒有那麼強大的資料處理能力,即使有人下出了我們看上去像是阿爾法狗的招法,我們說也只是形似而已,這個人肯定沒有經過阿狗那麼巨大的計算過程,不會那麼嚴謹,其他人只要是和他水平相當的對手,應該不會感到任何恐懼,見招拆招就是,因為這兩人的大腦是處於同一級別的,我們甚至沒法從電腦下的棋招中總結出任何道理,人類或許可以讓程式將其某一步的推理完完全全的展示出來,但我懷疑人類的大腦是否能完全處理這樣巨大的資訊量,像顆樹一樣的分叉的決策,無異於讓人類靠大腦記憶後去辯識一棵樹上的所有樹葉哪片長的最漂亮。

    現在的阿狗可以告訴我們走在哪比較好,但阿狗走的棋遠遠不是標準的唯一正確的走法,圍棋是否存在一種標準的最優解現在至少以現在人類發展的水平來說還是個看不到答案的問題,我們知道圍棋的所有變化是一個與所有宇宙中粒子數總和的數量級相當的巨大天文數字:十的一百七十次方,阿爾法狗的計算還遠遠不可能找到所謂的最優解,況且這個最優解是否存在還是兩說,我們只能說阿狗是在總結了人類的棋譜和它自己左右手互搏的棋譜後找到的贏棋機率比較高的招法,所以現在人工智慧圍棋是可以被打敗的,前提是有更多的Cpu,Gpu,更快捷的搜尋程式。

    其實我這裡想說說人類做一個人工智慧圍棋程式對於圍棋本身的意義,圍棋對於人工智慧的意義當然簡明,就是證明機器在邏輯推理的深度和廣度上已經完全碾壓人類的智慧,這樣的程式幾乎已經可以勝任人類辯識各種表象,進行邏輯推理等完全屬於人類智慧範疇的活動,其結果也完全是可以信賴的。因此人類現在紛紛開始了用機器代替人類來進行金融分析,股票操作,人臉識別,語言翻譯,甚至醫療診斷等。但對於圍棋本身,我們如果僅僅將阿爾法狗看做一個超過人類水平的棋手,或者程式,甚至由此而認為圍棋的發展也就到此為止,機器已經摸到了圍棋的天頂,那就大錯特錯了。

    探討阿爾法狗對於圍棋領域能夠起到怎樣的作用則又要從圍棋的起源,及圍棋本質是在揭示什麼樣的一個問題來談起。我們先說圍棋的起源,就是那句人們耳熟能詳的古語“堯造圍棋,以教子丹朱”,圍棋一開始就是作為人們啟迪智慧,開發大腦的工具出現的,千百年來一直是中國人修身養性,啟智怡情的活動,出自圍棋的成語也比比皆是,順勢而行,入界宜緩,攻彼顧己,無事自補者有侵人之心等等,都可以成為中國人在社會中行事的準則和方法,那麼圍棋何以在如此廣泛的社會活動中成為人們模擬社會,模擬世界的一個模型,教導人們的行為處事原則的呢?

    我們可以先把圍棋換個樣子來考察,把一局棋從第一手開始的每一步的局面都在棋盤上展示出來,按照每步的順序自下而上的摞起來,然後稍微發揮一點我們的想象力,去掉棋盤這個實體,只留下棋盤上的線條和黑白棋子,於是我們可以看到最底層是一個十九乘十九的線條交叉組成的網格,有一個交叉點被一個黑子佔據,第二層則是一個黑子和一個白子各佔據了兩個交叉點,逐層向上,我們會看到什麼?是兩個相矛盾物種黑子和白子不停生長起來,然後開始互相交叉纏繞,甚至絞斷對方的支叉,就為了爭奪最上面一層的空間,直到最後,最上面一層的棋子已經互相擠滿,然後以佔得最大空間的一方為勝,這樣我們可以清楚的認識到圍棋的本質就是兩個物種爭奪最上方的空間的一場競爭,就像是兩株植物爭奪陽光的競爭。我們可以清楚的看到所有人類下過的棋局都像是人類的思想在棋局中變成一株株植物,互相爭奪著陽光,所以我說圍棋是人類最早的描述在有限空間內兩個物種競爭的一個模型,它不同於我們通常說的數學模型,因為除了為避免棋局無法進行而設定的打劫規則,它沒有設定任何關於如何走棋的規則,但它仍然是一個模型,我們姑且可以稱它為“有限空間的兩個物種生存策略的競爭模型”。我們完全可以把圍棋看作是人類最早的對各種大自然及人類社會中的競爭行為進行理想化的抽象後做出的一個理論模型,而且似乎這是人類關於競爭關係做出的唯一的一個完美的模型,千百年來人類發展出各種哲學,科學理論,但有哪一個理論能夠像圍棋一樣如此完美的描述自然界中生長競爭的理論?唯一相近的理論就是數學分支裡面的博弈論,但這個理論說實話還沒看到能應用到任何複雜博弈的人類活動裡面,只是對人類策略進行個大致的總結,但圍棋確實完美的描述了這種競爭。

    人類一直沒能用嚴謹縝密的數學方法來量化的研究圍棋,說起來也是件弔詭的事,圍棋只是十九乘十九的座標系,裡面每個落點可以用數字精確表達,但確確實實沒有人能用什麼公式算出圍棋中一方下一步著點的座標。也沒有這種理論。即使到現在阿爾法狗戰勝了人類,阿狗也是依靠強大的資料處理能力學著人類大腦的思考方法,下出比人類更好的選點而已,並沒有任何理論比如說根據入界宜緩論,在某個局面下,我們只能跳一步,而不能大飛,或者三間跳。人類和機器都是憑感覺選擇。所以圍棋雖然可以用資料來完美表達,但無法用數學理論來推導。這是一個多麼奇怪的事?數學理論已經在人類幾乎所有能夠遇到的領域展示了它的強大無比的統治力,但對於圍棋,人們還是隻能透過學習古人的諺語來學習圍棋,金角銀邊草肚皮,兩邊同型走中間,棋從斷處生……,沒有哪個理論告訴人們在什麼情況下具體如何行棋,以及為什麼要這樣行棋。

    我想這是因為我們人類一直將自然界看做是一種客觀存在來觀察,注重探討和描述各種自然界的現象,但並沒有將自然界中到處存在的生存智慧做為一門學科來研究,人們意識到自然界的萬千物種都是有各自的生存智慧的,但這些生存的智慧和各種策略是否可以像一門理論一樣歸納總結出其共同的公理和定律,成為一門自己的科學體系?人類從古至今只能靠面壁十年的達摩似的人類來參透,從這些思想者想出隻言片語中各自揣摩一下,到現在為止根本沒可能成為一種可以自洽的理論體系,拈花一笑是佛的標準語言,因為這需要修道唸佛的人去自己體會,完全沒法用語言解釋。但其實能夠參透自然界生存策略的工具幾千年來就一直陪伴在我們的身邊,這就是圍棋。圍棋以人類智慧的發展速度一直在向人類揭示這各種自然競爭的策略,作為一個有限空間的兩個物種生存策略的競爭模型,人類從圍棋裡體會到了各種只有在社會實踐,軍事戰爭,政治經濟鬥爭相同的共性,乃至於下圍棋這個過程本省就是對人類性格,心理成熟的程度以及周全的考察能力等方面的一種錘鍊,成為古人修身養性的最佳選擇。

    而人類對於圍棋的認識,藤澤秀行老先生曾經說過:“如果圍棋有一百,我只知六、七”。很顯然以人類大腦的功能,想要去認識浩瀚的圍棋策略領域是完全不可能的,人類真的像個在海邊玩耍的孩童一樣,望著廣袤無垠的大海,只能玩耍著撿到的幾個貝殼。所以阿爾法狗的出現,就等於人類終於造出了一隻小舢板,可以坐在舢板上去大海里轉轉了,而這就是阿爾法狗對於圍棋的重要意義!當然我們現在還沒法坐上這隻小舢板,因為我們沒有天上的星星導航,這隻舢板劃到哪裡我們一無所知,我們坐上這隻小船隻看到周圍茫茫無際的海水,如何看到天上那些星星,為我們人類學習自然智慧的小船能遨遊大海是每個下圍棋的人都應該去探索,思考的大問題。

    最後我要說的是:關於自然生存的智慧和策略的理論是一定會建立的,而且圍棋是研究這種理論最佳的一個模型,它應該能成為數學的一個分支,但確實是無法量化,我們無法用數字來衡量這個體系,可能只能用關聯作為單位來衡量,這種理論會讓我們更深刻的理解自然界中,社會中,和各種空間內物種生存的基本規律,成為指導人類進化的明燈。而這一切應該是從“堯造圍棋”來開始的。

  • 4 # 聶衛平

    人工智慧在圍棋上不可能沒有缺點,但優點和缺點都是相對的,如果你比我強大,我在你那裡都是缺點,一盤棋下來,你能發現的我的缺點比比皆是;但如果我比你強大,那麼在棋盤上你就看不到我的缺點。所以,棋逢對手將遇良材才是人生快事,否則雞同鴨講,對牛彈琴,雙方都不在一個維度上,相互間的對話不能激起火花,毫無樂趣可言。

    人工智慧來自於人類的創造,只要是人類創造出來的就肯定有弱點。目前最強的人工智慧AlphaGo沒有呈現出特別明顯的弱點,它化身Master在網上取得的60連勝棋局內容很可怕,一時找不到它的明顯弱點。還是那個問題,因為人類高手沒有贏過它,所以無從知道其弱點究竟在何處,只有贏了它,才能發現其弱點。

    以我本人對Master那盤棋為例,序盤如果不是在右上角看漏死活,那盤棋我的形勢還不錯,但一個勺子出手,勝負即已被確定。對AlphaGo這等級別的人工智慧,只要出現一個明顯的失誤,就再也沒有機會回頭。而柯潔肯定不能做到這一點。

    AlphaGo暫時找不到缺點,不等於其他的人工智慧也沒有缺點,除了絕藝,其他人工智慧漏洞一大堆。絕藝最近在網上與職業棋手進行對抗賽,已經輸了六盤棋,它對人類高手大規模治孤的局面似乎掌控力還不夠,像對黨毅飛、黃雲嵩、範胤、邱峻那幾盤棋,殺著殺著就將自己的大龍給送了進去,對於大規模對殺,絕藝的掌控力還不能說是超一流級的。它輸掉的這六盤棋如出一轍,對殺過於複雜的話,電腦的應對是有缺陷的。這方面,人類棋手只需掃一眼就能看個大概,而電腦沒有這樣的眼睛,它只能將局面切割為一個個的區域性進行演算,這就影響了它對大規模對殺的判斷。

  • 5 # 博古齋-郭連合

    弱點肯定有,只是還沒被人抓住而已。不論圍棋象棋類的人工智慧,都是利用電腦強大的運算速度儲存功能等,將大量的棋譜儲存其中而供其選擇,也就是在大量資訊基礎上選擇最佳方案。它的思維方式就是在規則內前輩棋手的思路整合。要想戰勝人工智慧可以從以下思路考慮,第一是把棋局下得儘量的複雜,越亂越好,機器的綜合判斷能力,整體大局觀,利益取捨,以及一些騙招冷招,它未必能夠精準作出判斷。第二是棋手變換思路,跳出前人的思維方式,在邏輯上干擾機器的判斷,見到儲存中沒見過的招法,機器就會不知所措,就容易亂走出錯。第三就是以上方法結合使用,必能生效。即多出怪招冷招新招,不按常理落子,然後儘量選擇最複雜下法,用亂拳打死老師傅。

  • 6 # 直指見性

    alphago的水平離圍棋上帝的水平還有不小的差距,圍棋上帝是指每一步都是最佳的選擇。alphago的每一步不一定是最佳下法就是弱點,人類棋手可以透過反覆研究,達到或接近最佳下法。alphago是以棋局一旦取優勢,就簡化局勢,確保勝利。用拳擊比賽為例,一旦取得點數優勢,就處於防守不失點的狀態。這與圍棋精神也不相符。

  • 7 # 使用者5784882508_24347

    谷歌的圍棋應用的神經網路,深度學習等等技術,說起來都是業界已經有的技術,谷歌這一次也是真正的一次測試,商業目的一定會有,但是主要是測試。因為不是專家,只能說說我的理解。1、什麼是神經網路。所謂神經網路,就是把輸入的資料分成小的元素,然後租車相互關聯的網路結構。比如圍棋棋盤是19*19,第一層先分割成4個10*10的小格子,(其中一個行列可以交叉),形成連線的網路第二層再把每個10*10的小格子,分成4個5*5的小格子,形成單元更細的連線網路。………………一共有多少層,只有工程師呢自己知道了。每個點的應該有4個狀態,黑,白,空,空(因為劫不能落子)的情況。每個小格子的狀態,就是由這四個狀態決定的。最終他們會給每個小格子狀態最終勝率的隨機權重。網路中每種狀態下,下一步落點與勝率的關係,勝率改變來改權重,並進行訓練。進行大量的訓練後,最終追求接近完美的權重。這樣尋找到的點就是我們說的電腦的棋感。再說說比賽,這些弱點大家都總結出來了,我只是加上我的理解:1.電腦怕打劫。可以想想,落點的4種狀態中,空(因為劫不能落子)的情況是最少出現的。因為很可能存在訓練不足的情況,因此電腦的棋感在這裡還沒有很好的訓練出來,更容易出臭棋。這樣自學習的時候,就會出現電腦雙方都不去打劫,造成訓練更加不夠,更加怕打劫。因此自我對局固然會強化優勢,也會強化弱點。因此打敗電腦還是要利用打劫。2.區域性戰鬥。我們認為電腦的計算力很強,但是如果區域性戰鬥牽扯盤面資訊太多,目前電腦的計算力還是不夠的。只能用蒙特卡洛搜尋的方法,選擇一些可能點的,進行計算。因此漏點的機會就大,而且計算不清的情況下,局勢也會判斷錯誤。因此李世石將戰鬥匯入複雜是非常正確的,而且在中腹戰鬥也是非常正確的。3.因為電腦學習方式特殊,它沒有我們的啟蒙階段,我們不會犯的低階錯誤,它是有可能存在訓練不足的情況的。徵子,比賽棋譜估計不會有人下太多的,因為人可以判斷出不利,電腦可能也是訓練不足的。同時徵子因為步數很多,也可能超出了走子網路的計算範圍。不過這個比賽用風險太大。

  • 8 # 裹之理9

    有,可以肯定的有,棋類比賽,勝負輸贏,要看下棋雙方的水平,一個高手總是與水平低的下,出來的棋譜也不會好到哪去。或許有一天,能有天才的棋手,下出另類的棋,是那種不同於以往的棋,(人類的進步就是不斷超越從前,)那種之前沒有記載在棋譜的棋。相信人的創造力,相信人的智慧。

  • 9 # 這個殺手很怕熱

    很遺憾的講,人工智慧不是沒有弱點,在思考圍棋這件事上,以go為例,它在圍棋上的思考方式已經和人類對待圍棋的思考方式不一樣了,所以人工智慧在圍棋上即使有弱點,也只有更先進的人工智慧能發現。

    為什麼這麼說呢?那要對人工智慧是如何看待圍棋簡單分析一下,聶棋聖可能是不太懂人工智慧,機器學習,我有幸看過幾篇阿爾法go演算法歷程,撿一些扼要的說說;

    首先科學家教go的只是圍棋的勝負規則,就是誰最後佔地方多誰贏,用最笨的方法,你下一步,go瞎下一步,最後下完一定會有個結果,如果go能用計算機算力遍歷所有可能的結果,那你下任何一步,go的迴應都是確保最高勝率的迴應,當然,每一步都要窮舉是不可能的,那go的演算法設計就變成了如何用已有的棋局來分析出勝率最高的後手,這裡面至少分了兩大部分,一個是早期的網上人類對局資料,另一個是包括改良的蒙特卡洛與機器學習演算法,簡單說就是科學家把go和自己多次對弈按最終結果分權重優先順序,總結起來就是科學家不懂圍棋套路,但懂遊戲規則,懂如何讓go用最短的時間演算更多的對局,對局越多每次落子是勝手的機率越高。

    好了,現在說說人腦,首先在算力不在一個量級的前提下「永遠也不在一個量級」,人腦是透過經驗,想象力,大局觀去“嘗試”勝利,可以說在嘗試與嘗試的過程尋求勝利,是一片一片的考慮,從宏觀到微觀的落子,go顯然不是這麼考慮的,它是直接基於結果的最優選擇,兩者對比,人的大腦好比霧裡看花,而go是洞若觀火

    我個人覺得,沒有必要人機對弈,好比人和機器玩速算,反過來好比機器和人說藝術;圍棋本就是探求人腦智力極限的比賽,也只有人對人才有意義。

  • 10 # 文一直

    阿爾法圍棋是21世紀最偉大的發明。沒有之一。超越瓦特,改變全人類。今後再創牛頓和愛因斯坦指日可待。甚至可以說生命生命的形式從DNA進化到矽晶體模式。開始可服務人類,取代人類全部腦力體力勞動,但人類最終被邊緣化也是歷史發展的必然。歷史的洪流滾滾不可阻擋。我猜阿爾法團隊可能看到了這一點。馬雲的觀點只說明他是個時代的寵兒,不過是機遇好而矣,王林都可以忽悠他。本質上是一類人。為聶棋聖點贊!

  • 11 # 我叫鄭德柱

    圍棋的變化數對於目前看起來強大無比的計算機資源,仍然是一個無窮一般的概念。AlphaGo可以打敗人類頂尖水準棋手,但是還遠遠達不到“最優解”的程度。

    AlphaGo對於棋界無疑是一陣巨大的革新浪潮,現在總能在棋手聚會里看到非常精彩的新招拆解,也就是戲稱為“狗招”的大局觀極強的下法後續的定論探討。

    說起人工智慧,有個特別有意思的角色要提一提:

    禪雅塔,一個機器人。好吧,是“智械” 。

    按照設定,這樣一塊鐵傢伙整天浮在空中 居然每天的職責是教人類諸如內心平靜啊,inner peace 啊:

    “施主不要像我這個鐵塊一樣,不以心為形役咩?”

    如果僅是如此還則罷了。

    每次他發動“亂”的技能干擾到對手的時候,會說一句:

    “你的內心焦躁不安”

    誰造成的!

    另外,

    真正感受寧靜的時候就是不停加血的六秒鐘!

    有恃無恐果然寧靜!

    『背景』

    很多朋友聽說過國際象棋程式 -- 深藍。在1997年深藍擊敗了國際象棋特級大師卡斯帕羅夫。就在當時,圍棋程式的水平仍然是k級,也就是不到業餘初段。截止2015年,全世界6000多種完全資訊博弈遊戲中,只有圍棋程式無法抗衡相關領域的職業選手。

    等等,什麼是完全資訊博弈遊戲!?

    完全資訊博弈遊戲的定義 :是指每一參與者都擁有所有其他參與者的 特徵 、策略 及 得益函式 等方面的準確資訊的博弈。

    圍棋、象棋 落下子來,手中不藏牌,盤上規則沒有變數,勝負在於面對 於人腦近乎於無窮的變化數量,做一個最佳化的策略、合理聚焦、深度速算。對手隱藏的陷阱招數,全部隱含與已經落在盤上的棋子之間。

    (成名多年的圍棋高手也會常常被妙算無窮的好棋深深折服,圍棋的魅力正源於此)

    非完全資訊博弈遊戲,對比完全資訊大家想必已經有大致瞭解了。橋牌,暗棋,各種帶有戰爭迷霧的遊戲。

    (這個策略,嗯,保留意見吧,墨鏡挺帥的)

    『圍棋人工智慧為什麼來的這麼晚』

    從1997年到 2015年,近20 年的時間裡,各類硬體發生了質的飛躍,我們不再有人指望囤積 BP機(尋呼機)還能賺錢,一部手機已經可以輕鬆運轉類似無盡之劍這樣精良的作品。為什麼過了這麼久,人機對抗仍然需要呼叫非常誇張的計算資源?

    ▶▶圍棋人工智慧的難度主要體現在兩方面:

    搜尋空間巨大:合法的圍棋的變化(10^170)大於宇宙中原子數(10^80)。局面判斷難:多人發表論文,說明,不可能有一個很好的靜態局面評估函式。局面評估函式。靜態局面評估函式(可以簡單類比中國象棋殘局) 動態局面評估函式(類比中國象棋殘局 往前推算)。

    (這兩點暫且放在這裡,之後細表↓)

    ▶▶▶我們把圍棋人工智慧的發展分為三個階段:

    第一階段:以模式識別和人工啟發式演算法為主,水平低於業餘初段。

    第二階段:以蒙特卡洛搜尋樹演算法為代表,水平最高達到業餘5段。

    第三階段:以機器學習演算法為突破,戰勝人類職業棋手。

    ▷♫♬♩♫ 第一代圍棋人工智慧 ♪♫♬

    第一個完整下完一盤棋的程式,是1968年, 美國人Albert L. Zobrist,作為他的博士論文完成的。

    不過,接下來的20年裡,圍棋AI們即使是對上剛入門的初學者,也難求一勝。

    1987年,應氏圍棋基金會懸賞百萬美元,尋求能夠戰勝職業棋手的圍棋AI。這個懸賞分很多級,最低一級獎金,是十萬新臺幣,相當於四千美元,獎勵給第一個能夠受讓十六子戰勝業餘高手的程式。

    1987年的百萬美元啊! 當時程式的水平,可想而知。

    (讓十六個就是這樣,黑棋關鍵的地方先擺上十六個,然後黑白一人一步比拼誰的領地大)

    一直到1990年,一位中國人,中山大學化學系教授陳志行,在退休以後,花了幾個月的時間編寫了名為“手談”的程式。手談問世以後幾年內,實力快速增長。

    1995年,手談連續拿到了受讓十四子和十二子戰勝業餘高手的獎金。

    1997年,手談再過業餘高手的十子關。這三次突破共計為陳志行帶來了六十萬新臺幣的獎金。同時,在1995至1998年,手談在兩項計算機圍棋世界賽中七連冠,在整個九十年代鶴立雞群,獨佔鰲頭。

    (這張照片與手談軟體 都是與我們這一代棋迷一起長大的回憶)

    ◤◤手談的秘密武器◢◢♜

    前面講到,圍棋難,一難在搜尋空間大,就是不知道往哪裡下,二難在局面判斷難,就是看不出是要贏還是要輸。陳教授為了解決這兩個問題,祭出了一個秘密武器——“勢力函式”。

    請看這個圖。

    “勢力”是圍棋術語,說白了,就是一個棋子對周圍空間的影響。陳志行認為,這種影響是可以量化的。比如,這圖中有一顆黑子。離黑子最近的四個點,用圈標出的,受到的影響力是4. 稍微遠點,用×標出的四個點,受到影響力是3. 用方塊標出的,受影響力是2。三角形標出的,受影響力是1. 更遠的地方,就沒有影響了。當然,棋盤上有很多個子,位置不同。我們把所有棋子的影響力疊加起來,就可以得到,棋盤上的某一個空點,到底是黑棋的勢力範圍,還是白棋的勢力範圍。

    這樣一來,形式判斷的問題就有了一個初步的解決方案。

    對於這個圖上的局面,

    我們看下面這個圖。當然,這個圖不是手談的形勢判斷,因為這個軟體太舊了。不過直觀上是相似的。

    (標字母的請忽略)

    比如我們有這麼一個局面。棋盤中間標有字母的幾個黑棋請大家忽略,這些棋不在棋盤上。那麼手談會怎麼判斷呢?看下面這圖

    很直觀的,更靠近白棋勢力範圍的,比如左上角,白色的方塊幾乎都塗滿了,表示這是白棋的確定地。而右下,黑方的確定地,也是一樣。而處於兩者之間的,比如棋盤左邊中間,黑白勢力範圍的交界處,也可以看出很明顯的過渡。這就是一個不太壞的靜態的局面評估函式。

    所謂靜態,就是給你一個局面,不用考慮這個局面會怎麼發展,就能判斷。

    同樣地,這個影響函式也能初步解決這棋該走哪的問題。比如說,陳志行經常舉的一個例子。當年手談的對手,其它程式們,面對一個棋型,總是懵逼。就是下面這個棋型:

    (小棋盤的例子 ¶)

    黑棋帶圈的這兩個子,構成一個棋型,叫做小飛。現在白棋走在1這個位置。對於下圍棋的人來說,黑棋接下來的應法是常識。

    (這種走了被別人應對了自己就尷尬的叫做 臭棋)

    黑棋應該擋住。這樣黑棋三個子連成一片,白1已經基本成為廢子。

    其它程式們不知道,但是手談知道。對於上面那個局面,手談的勢力函式就發威了:根據一個區域性影響函式的分佈,手談不難識別出,這是一個黑棋小飛,白棋威脅要切斷黑棋的棋型。這就是一種所謂的模式識別。那麼一旦遇到這種情況,我擋住就好了。好,到了實戰的時候,手談遇到對手,都能擋住小飛。而對手遇到手談,就是下面這種情況。

    (被白棋衝穿了局部很不好收場)

    黑方中間這兩個子被白方切斷。黑棋被撕裂,黑棋形勢瞬間惡化。難怪手談戰無不勝。

    但是。我必須說的是。這個勢力函式,不是萬能的。圍棋有太多複雜的區域性棋型,手談對於識別更多的棋型無能為力。同時,基於勢力函式的形勢判斷,也並不是很準確。這就限制了手談的進一步提升。

    陳教授的畢生目標是讓手談提升到受讓陳教授自己九子能獲勝的水平。

    陳教授是業餘高手,比剛才提到的,應氏基金會派出的測試手談的棋手,水平還要高一些。能夠受讓九子戰勝陳教授,可以說基本上達到了業餘初段的水平。讓九子是這麼擺的:

    (以前讓新手好多次9子,也想起很久遠的以前被讓九個,被折騰的摸不著頭腦)

    黑棋先擺九個,然後白棋落子和黑棋比拼領地大小。

    可以看到黑棋優勢還是很大。可是,直到陳教授在2008年去世,手談也沒能過陳教授的九子關。實際上,在1997年後,圍棋程式陷入了一段發展緩慢的時期。這就有了下面這個故事,“初段圍棋賭局”。

    1997年,與深藍戰勝卡斯帕羅夫同一年,工程師Darren Cook, 向計算機圍棋從業者,包括陳教授,和幾位職業棋手,提出了一個問題:什麼時候才能有圍棋程式達到業餘初段水平? 大家的答案五花八門。有說三年以後的。陳教授說2020年。有個職業棋手說要到23世紀。

    http://www.smart-games.com/worldcompgo.html

    (這裡看 World Computer Go Championships)

    【初段賭局】

    其中最勁爆的是,一位計算機科學家,名叫John Tromp的回覆,到2011年,不可能有圍棋程式戰勝我。John是歐洲業餘一級,比業餘初段只低一個級別。而且,John為自己押了一千美金。這比某位微博大V說川普贏了大選就吃翔,最後躺地打滾,要可靠多了。Darren欣然接受賭局。

    那麼這一千美金的賭局,最後結果如何呢?

    我們要先講完第二代人工智慧。

    ▷▷♬♬♫♪♩ 第二代圍棋人工智慧

    一個下棋程式,可以歸結為一個問題:

    也就是,在某一個局面下,輪到自己下棋,你要下在哪裡。

    圍棋盤上,有許多選擇,所以這個問題就歸結為,這麼多的選擇,哪一個是最好的,或者說,比較好的。

    極小化極大搜尋演算法 Minimax tree search

    alpha–beta pruning

    (井字棋大概 那麼示意一下)

    最簡化的情況做一個講解 ✔

    假設我們對每個局面有一個評分,評分越高代表對自己越有利。相反的,如果評分低,代表對對方有利。

    當輪到自己落子時,自己面臨兩種選擇A1,A2。自己選擇A1後,對方可以選擇B11,B12。自己選擇A2後,對方可以選擇B21,B22。

    評分:

    B11: 3

    B12: 5

    B21: 0

    B22: 10

    Minimax選擇A1。

    (亂入一張圖,五彩斑斕,還有全域性(global)感)

    (圍棋的選點很多,但是賦值卻極為困難,而且隨著局面變化會產生變化)

    那靜態和動態都是人為賦予分數來計算,實際執行的時候會有什麼明顯差異麼?

    靜態評估,就是隻看棋盤的當前狀態。動態評估,還需看除當前狀態外的其它狀態。比如用蒙特卡洛模擬大量棋局進行評估。

    Monte-Carlo methods

    第一代圍棋人工智慧的侷限:局面評估相比國際象棋,圍棋的局面評估非常難。大家可能瞭解,國際象棋裡面的後和車,威力很大。如果一方多了一個後或者多了一個車,一般說來局面一定對那一方有利。當然還要根據子力位置好壞進行一定調整,但是一般說來利用子力價值評估,已經能得到相當好的局面評估。但是對於圍棋,並不能這樣套用。因為每一顆圍棋棋子都是一樣的,只是在棋盤上出現在不同位置,才出現了不同棋子之間的價值差別。而這對於電腦來說,是非常難以判斷的。

    MCTS 蒙特卡洛搜尋樹

    蒙特卡洛是摩納哥公國的一座城市,位於歐洲地中海。蒙特卡洛是摩納哥的歷史中心,也是世界著名的賭城。蒙特卡洛演算法蒙特卡洛方法(英語:Monte Carlo method),也稱統計模擬方法,是二十世紀四十年代中期由於科學技術的發展和電子計算機的發明,而被提出的一種以機率統計理論為指導的一類非常重要的數值計算方法。是指使用隨機數(或更常見的偽隨機數)來解決很多計算問題的方法。

    (蒙特卡洛是這樣的城市)

    舉例來說:假設我們要計算一個不規則圖形的面積,那麼圖形的不規則程度和分析性計算(比如,積分)的複雜程度是成正比的。蒙特卡洛方法基於這樣的思想:假想你有一袋豆子,把豆子均勻地朝這個圖形上撒,然後數這個圖形之中有多少顆豆子,這個豆子的數目就是圖形的面積。當你的豆子越小,撒的越多的時候,結果就越精確。藉助計算機程式可以生成大量均勻分佈座標點,然後統計出圖形內的點數,透過它們佔總點數的比例和座標點生成範圍的面積就可以求出圖形面積。

    在賭場中有很多數學機率計算的專案。蒙特卡洛演算法在處理有些問題時候相當有效。故因此得名。 蒙特卡洛搜尋樹演算法是一個基於蒙特卡洛思想,解決圍棋局面評估問題的演算法。簡單的說,對計算機來說,圍棋局面很難評估孰優孰劣,因為沒有定型的地方很難判斷屬於哪一方。但是,如果棋局已經下完了,那就可以數子,來判斷誰贏了。那麼,對於一個沒下完的局面,就電腦模擬,把他下完。每模擬一次,就得到一個最終的勝利結果。假如對於一個未完成的局面,模擬10000局,其中黑方贏了5500局,白方贏了4500局。就認為此局面下黑方稍優,認為黑方勝率55%。 這種演算法好處在於:

    充分利用了電腦的計算能力。模擬的局數越多,得到的結果也就越精確。這種演算法是天然支援平行計算的。因為不同的模擬之間沒有邏輯的因果聯絡,可以放到不同的機器上跑,最後再綜合結果。

    這種演算法也有其缺點:

    招法只是根據統計結果來決定,有時會缺少前後邏輯關聯。打劫,尤其是連環劫。打劫有很強的前後關聯。平均值和最大值的差異。舉例來說:(要先說minmax search)現在有A1,A2兩種選擇:A1下面的是(3, 5),A2下面的是(0,10)。顯然應該選A1。因為如果我選了A1,我的對手會選3。如果我選B,我的對手會選0。0比3要小,所以我會選A1,這樣對我更有利。但是如果我用蒙特卡洛搜尋樹演算法呢,我看了下A,有兩個可能,平均值是4。看了一下B,有兩種可能,平均值是5。這樣看上去B更好。不同的分支,搜尋的深度應該並不一樣。比如,思考A1招法時候,五步棋之後,明顯發現不好,後面的就不需要看了。而A2招法,十步棋之後,也很難說好與不好,還需要繼續往下計算。這時候如果平等的看待每個後續招法,是不合適的。

    UCT 上限置信區間演算法 In 2006, a new search technique, upper confidence bounds applied to trees (UCT), UCT算 法是一種特殊的蒙特卡洛搜尋演算法,它由樹內選擇策略、預設模擬策略和模擬結果回傳三部分組成。

    時間可控,解決MCTS的第3個缺點,動態分配資源。好鋼用在刀刃上。如果算出去幾步,一看情況不妙,馬上收手,去算其他節點。UCT 演算法最後的作為搜尋結果的節點以及次優節點一定是經過多次抽樣的具有較高估值可信度的節點。

    --------------------------------------------------------------------------------------------------------------------------

    在AlphaGo出現之前,最成功的圍棋人工智慧叫做Zen,中文叫做天頂圍棋。

    § 第三代人工智慧♬♫♫♪♬

    我們先揭曉一下之前提到的,“初段圍棋賭局”的結局。在第二代人工智慧興起以後,圍棋AI進步迅猛。2008年,採用蒙特卡洛樹搜尋的MoGo受讓九子戰勝金明完九段。次年,MoGo受讓六子戰勝簡立辰初段。業餘初段似乎已經不是AI們的對手。不過,John也不是坐以待斃。在過去的十幾年裡,John已經從業餘1級進步到了業餘2段。賭局最後期限臨近,懸念竟然不跌反增。2010年末,John Tromp 與 當時的一流程式多面圍棋大戰四局。結果令人意外,John 以4比0橫掃多面圍棋。並且,從程序來看,多面圍棋毫無還手之力,可以說是慘不忍睹啊。John就此贏得一千美元的賭金。

    不過Darren不服。明明程式們早就超出了業餘初段的水平,只不過是你John也進步了。可是你一個人的進步,能有程式們的進步快?兩年以後我們再比一場,這次不求你賭,只求你出戰。

    2012年中,John再次站在了pk臺上。這一次他的對手是Zen。Zen當時已經在西方圍棋圈內小有名氣。在KGS上,每天都有業餘高手排著隊挑戰Zen。我記得當年我也和Zen下了十幾局。印象中,快棋輸得多。慢棋大致相當。當時我就覺得John一點機會都沒有啊。結果,John居然贏下了第一局。不過,Zen沒有再給John機會,連勝三局,從而贏得了這個系列賽。“初段賭局”就此告一段落。

    同年,Zen在日本舉行的電王戰,也就是計算機圍棋的大賽中,奪冠。隨後Zen與武宮正樹對抗。武宮正樹九段,日本前超一流棋手,以“宇宙流”,也就是重視外勢的風格,受到棋友的喜愛。結果Zen連破武宮正樹的五子關、四子關,也就是分別受讓五子和四子戰勝武宮正樹。這標誌著圍棋AI達到了業餘高手的水平。

    不過,回看當年影片,可以看出武宮對局心態相當放鬆,明顯是用下指導棋的態度。棋局內容中武宮試探較多,有時也並未祭出最強下法。所以這個讓四子,需要打一個小小的折扣。

    就在圈內一片樂觀之時,圍棋AI的發展卻又陷入了停滯。2012-2015年,圍棋AI進展緩慢。

    2015 年末,在北京三里屯,世界圍棋人工智慧大會,程式石子旋風力挫Zen奪冠。在隨後的人機對抗中,中國的連笑七段——連笑,處於當打之年的一流棋手。連笑讓石子旋風四子和五子局皆勝,讓六子局才敗於石子旋風。在棋局中,石子旋風再次暴露出第二代圍棋AI行棋缺乏邏輯性的問題,特別是一個連環劫,被連笑耍得團團轉。

    賽後,國家隊總教練俞斌說,圍棋AI戰勝職業棋手,恐怕還需要一百年。即使是參賽程式開發者們的“樂觀估計”,也認為這需要15-20年。

    當時沒人想到,有一個程式正在飛速成長,並已經戰勝了一位職業棋手。

    這個程式,現在大家都知道了,就是AlphaGo.

    ♕♕ AlphaGo ♛♛

    那我們接下來介紹AlphaGo.

    大家或多或少可能知道,阿法狗採用了一項核心技術,DCNN,也就是深度卷積神經網路。我們今天不展開講神經網路。不過,為了方便理解,我還是給出一個神經網路的直觀理解。

    人工神經網路,模擬的是人腦中的神經網路。成年人的大腦裡有一千億個神經元,而這一千億神經元構成的網路能夠實現無數不可思議的功能。一個普通的人工神經網路,通常能夠實現人腦功能的很小一部分。我們可以把它看成一個黑箱,比如下面這個圖。

    具體到AlphaGo採用的神經網路,我們可以把它看成一個只會下棋的大腦。

    一個只會下棋的大腦是什麼樣的呢?我們可以用人類棋手下棋時的思維方式類比。請看這個圖。

    我們下棋的時候,面對一個局面,就好像給大腦輸入了資訊。接下來,大腦處理這個資訊,得到兩個輸出。一是候選招法。這個局面,根據我十幾年下棋的經驗,大概有ABCD這麼四種走法。二是形勢判斷。這A招法,我獲利10目。B招法,獲利3目。C脫離戰場,D方向錯誤。注意,這裡的判斷既有定量的,也有定性的。這是人類棋手判斷的特點。最後我確定,選擇招法A,並且默默再做一次判斷,確定自己有優勢。

    其實AlphaGo和人類的思維方式十分接近。AlphaGo的神經網路主要分為策略網路和價值網路。

    策略網路其實就是模仿人類給出候選招法的過程,而價值網路就是模擬人類形式判斷的過程。接下來我們具體展開。

    策略網路

    策略網路的始祖,是監督學習策略網路,也就是Supervised Learning Policy Network。我們用一個棋手來做比喻,藤澤秀行。藤澤秀行,已故的日本名譽棋聖。在座的部分棋迷也很熟悉,秀行在日本以私生活混亂和酗酒著稱。既有所謂“家中紅旗不倒,外面彩旗飄飄”,也有在中國會見鄧小平時,一身酒氣,滿嘴胡話的軼事。當然,我的重點是,藤澤秀行當年號稱“前五十手天下第一”,說的是藤澤秀行佈局功夫了得,選點有獨到之處。這和監督學習策略網路很像。

    監督學習策略網路,是從人類業餘高手的棋譜中挑選出三千萬個局面學習得到的。學習的結果是,這個網路在大部分時候能夠像人類的業餘高手一樣選點,總體有業餘3段的水平,就好像一個超低配版的藤澤秀行。

    這個低配版的藤澤,另一個特點就是“慢”。藤澤秀行下棋也慢,他曾經有一手棋長考三小時,然後怒屠對手大龍的經歷。而低配版的藤澤秀行呢,一秒鐘只能下三百步。你可能會問,一秒鐘三百步還算慢?別急。跟接下來這位比,這個藤澤還真算慢的。

    快速走子

    英文Fast Rollout. 我們也拿一位棋手打比方,羅洗河。

    羅洗河,中國職業九段,綽號神豬。當年羅洗河曾串燒五位韓國頂級棋手,並在決賽戰勝石佛李昌鎬,奪冠的同時,也終結了李昌鎬的霸業。羅九段以幼年測智商160 聞名棋界,下棋時落子飛快,經常只用對手的一半時間。而我們的快速走子網路,比神豬羅洗河更快。快速走子,一秒能走五十萬步,簡直就要上天。不過,快,就要犧牲下棋的質量。當年我學棋的時候, 有一段時間也下得飛快。我的老師就斥責我,“你這下得是圍棋嗎?你這簡直就是擺石子!” 快速走子,實力也和擺石子狀態的我差不多,業餘2段水平。

    但是這個水平也不簡單啊。第二代圍棋AI為什麼遇到瓶頸?很大程度上就是因為在蒙特卡洛搜尋樹的模擬中缺少一個能把色子投得又快又好的人。現在我們有羅洗河。它比策略網路快一千倍,實力卻差不了太多,恰好是負責模擬的最佳人選。另一方面,羅洗河天賦異稟。這個快速走子不是從完整的棋譜裡訓練出來的,而是把所有區域性的棋型都列舉出來。所有的區域性棋型,12格的小方塊裡面,幾萬個棋型,大家算算3^12是多少,全部輸入到羅洗河的腦子裡,然後讓他自己琢磨去。這個琢磨的方法不是深度學習,而是線性迴歸。不過,還是管用的。我們訓練快速走子,“羅洗河”的口號就是,不求最好,只求管用!

    強化學習策略網路

    接下來是一位重量級人物,聶衛平。擂臺賽英雄,不必多介紹了。這裡值得一提的是,藤澤秀行當年為了幫助中國圍棋發展,曾多次自費組團前往中國指導年輕棋手。老一輩的中國棋手,包括聶衛平在內,都把藤澤看作自己的老師。同樣,強化學習策略網路,低配版的聶衛平,也是低配版藤澤,監督學習策略網路的學生。低配版聶衛平,從低配版藤澤的招法開始,在自我對弈的過程中不斷更新迭代,穩定以後變得比老師更強大,達到業餘4段。

    這個低配版“聶衛平”的主要職責,就是鞭策後生,訓練價值網路。想當年,2002年圍甲聯賽,50歲的聶衛平和一位13歲少年對戰。聶衛平寶刀不老,戰勝少年。覆盤時,老聶在棋盤上指點江山,輕鬆寫意。不料,少年不服,反覆強調如果我這麼這麼下就贏了。老聶不悅,拂袖而去,留下一句“你丫牛逼”。這位日後成為世界冠軍的少年,就是陳耀燁。

    價值網路

    陳耀燁以形勢判斷準確而著稱。我們看圍棋TV的直播,那麼多頂尖職業做過主播,唯有陳耀燁判斷最準,好像一臺形勢判斷機器。而我們的價值網路,也是一臺形勢判斷機器,一個低配版的陳耀燁。價值網路從強化學習策略網路的棋局樣本中汲取營養,將自己訓練到能夠,看到一個局面,就立即給出當前局面黑方的勝率。這個判斷有多準確呢?如果我們讓價值網路單獨上場,那麼它能夠達到業餘3段的水平,相當不俗。

    現在我們有一個“四人團隊”了。“藤澤秀行”、“羅洗河”、“聶衛平”、“陳耀燁”,雖然都是低配版的。其實還有第五位,和“羅洗河”很像,就不展開講了。那麼這些只有業餘水平的神經網路,是怎麼變成戰無不勝的AlphaGo的呢? 關鍵回到之前介紹的,蒙特卡洛搜尋樹。

    在AlphaGo這裡,蒙特卡洛搜尋樹中的基本步驟,大致是上面這個圖。第一步,選擇。我們透過策略網路,就是圖中的P,給出幾個候選招法,這是第一層子節點。第二步,擴充套件。我們擴充套件第一層子節點,透過策略網路再下一招,給出第二層子節點。注意,這一步在剛開始模擬的時候是沒有的。只有當第一層的子節點經過的次數超過40次的時候,才擴充套件這個子節點。第三步,評估。對於每一個子節點,我們分別用兩種方式評估。一種是用價值網路,v_theta,直接做形勢判斷。第二種是用快速走子,p_pi,將棋局走到底,勝則記為1,敗則記為0,這就是圖中的r函式。最後一步,我們再把這兩個結果返回第一層子節點,更新行動函式Q。重複N次以後,我們以行動函式Q,和另一個關於策略網路的函式u(P),這二者為依據,最終決定選擇哪一招。

    上面那段可能有些朋友聽了有點暈,我們再結合一個具體的局面解釋。

    這個圖的棋盤部分是從AlphaGo的論文裡摘下來的。拿到這樣一個局面,我們先請出“陳耀燁”。你先看一眼這個棋大概誰好啊?

    接下來我們請出“藤澤秀行”,以您老人家的佈局眼光,這棋走哪裡好呀?請看d圖。“藤澤”說,以我五十年喝酒的經驗,不,下棋的經驗,這棋我多半會走下邊中間這個扳。還有三分之一機會走右下角的衝。其它棋,我基本上不會選。好嘞,謝謝您。勞煩您,您說的這兩步,再幫我們分別往下襬一手。藤澤老師就幫我們分別擺了一手。

    接下來,我們再把“陳耀燁”請回來。再勞駕你看看藤澤推薦的這幾招,到底好不好啊,你給判斷判斷?我們也把羅洗河請來。勞駕他用一秒鐘五十萬步的神功,模擬一下,誰贏誰輸?哎,不是讓他倆隨機選變化。你們一開始要聽長輩,藤澤老師的,重點模擬他那兩手。過段時間,你們有信心了,再多考慮你們自己的想法,明白了嗎? UCT. 十幾秒以後,陳耀燁給出了一個綜合報告,就是圖b,仍然堅持右下角的衝最好。羅洗河呢,報告說左下角的扳最好。這倆人的評價有分歧,聽誰的呢?綜合起來,我們取模擬次數最多的那一手。這就是圖e,發現是右下角的沖模擬次數最多, 79%,下邊的扳次之, 20%。我們最後選擇右下角的衝。那圖f是什麼意思呢?圖f,就是在由整個團隊共同決定的模擬中,重複次數最多的那個分支,或者說變化。如果是兩個阿法狗在對局,那麼他們接下來就有比較大的可能按照圖f進行下去。

    這裡有一點,“聶衛平”老師,也就是強化學習策略網路,沒有出現。明明他比老師,藤澤秀行強呀,怎麼不讓他決策呢?AlphaGo的團隊也曾經讓聶衛平代替藤澤秀行做決策,結果單打獨鬥更強的“聶衛平”,在團隊裡的效果卻不如“藤澤秀行”。為什麼呢?這就有點玄學了,官方的解釋是“聶衛平”給出的選擇隨機性太小。聶老佈局水平高嘛,有很多棋在他眼裡都不是圍棋,只有他這一步才是對的。隨機性小就阻礙了搜尋的廣度,這很不好,一不小心就漏看了一步棋。不過,說不定是聶衛平和團隊裡的其它成員八字不合吧,比如陳耀燁。不過,這個低配版“聶衛平”,並非沒有價值。畢竟,他鞭策了後生,親手訓練了“陳耀燁”嘛。

    這樣的一個團隊,通過蒙特卡洛搜尋樹結合到一起。三個臭皮匠賽過諸葛亮,戰勝了職業二段樊麾,又在2016年3月,以4比1戰勝傳奇棋手李世乭。領頭羊的突破總是會帶動後來者。

    歷史長河中,每個時代總會出現一位思維層次高過同時期其他所有人的棋界霸主,從 黃龍士、道策、吳清源 到李昌鎬。

    每個時代的大師都以前所未見的形式衝擊了舊的思維禁錮,打開了新的天地。

    不知道多少人曾經想象過這樣一件事,如果計算機幫忙窮盡計算,我們來做決策,豈不美哉,AlphaGo的出現確實整體的拔高了棋界對圍棋的理解。

  • 12 # 憤世嫉俗的防潮墊

    缺點就是人工的,也就是智慧什麼的都是人工的而已!各種棋譜人工輸入,各種戰略演算法人工輸入以及大家不懂的什麼什麼,真正依靠智慧二字的很少,還沒出現過人類一般的智慧,不要說超越多看電影小說就好…

    也就是說完全不會下棋的人,有機會讓人工智慧的計算能力崩壞,從而勝利,如果圍棋的計算量真的那麼恐怖的話………

  • 13 # IT168企業級

    人工智慧下圍棋說到底就是演算法和強大的計算能力,透過演算法對棋面進行高效能計算,進而得到最佳落棋點,因為機器的計算是朝著贏的一面計算的,所以無論如何都會贏,但如果你更改規則呢?如果你拔掉它的插頭呢?只能說,人工智慧在特定規則和環境下是很強大的,畢竟它的計算能力和訓練過的棋局數比人類最頂尖的棋手都要多上N倍!

  • 中秋節和大豐收的關聯?
  • 那些透過相親結婚的夫妻現在都過的怎麼樣了?