AlphaGo在自我對弈時會不會陷入收斂？

首頁>Club>2021-02-01 17:25

AlphaGo在自我對弈時會不會陷入收斂？

回覆列表

1 # 聶衛平

AlphaGo只是個程式，它沒有人的思維。人與人之間對弈時，會根據形勢變化，決定採取不同的對策，諸如不得貪勝、入界宜緩、窮寇勿追之類，但這些對人工智慧來說沒有意義，因為它不會像人類一樣去思考：這手棋需不需要讓步？贏半目也是贏，有必要冒著風險去屠大龍嗎？

只要懂棋的人應該都能看出，AlphaGo在與人類棋手進行對弈時，不管是與李世石對弈的1.0版本，還是升級為Master的2.0版本，在優勢明顯時，它會採用“收斂”的著法，縮小雙方的勝負差距，就像故意放水似的，寧願選擇一些吃虧的變化，導致最後只贏半目到1目半。
這給人造成的錯覺就是，AlphaGo通人性，不想讓對手輸得太難看，所以就像職業高手與業餘棋手下指導棋一樣，控制著勝負走向，最終以最小差距取勝，給人類棋手留下足夠的面子。

職業棋手在與業餘棋手下指導棋時可能會這樣想，但AlphaGo絕對不會。之所以會出現優勢局面下它大踏步後退的情況，原因說起來其實非常簡單：AlphaGo的每手棋其實都是眾多著法中的一種選擇，通常對手一手棋出手後，AlphaGo的後臺會根據勝率顯示出多種選擇，清楚地標明從①到⑨等等，如果讓AlphaGo自己選擇的話，它根據系統設定會選擇勝率最高的那種，但他的人工臂是人類，就會有人性化的選擇。

明白了這個道理，就會對AlphaGo優勢下的退讓恍然大悟了吧，不是AlphaGo有這麼聰明、這麼人性化，而是它的人工臂、操盤手這麼去做的，給人的錯覺是AlphaGo真的很“智慧”了。

2 # 陪孩子成長的日子

剛才看了聶衛平老師的回答，應該說盡管聶老師是圍棋高手，但不精於人工智慧。這個問題我來回答一下。首先聶老師對“收斂”估計是理解錯誤，當然也可能是我多想了。題主說的收斂應該是指人工智慧演算法裡的收斂。
收斂是必須的啊！不收斂反而是出問題了。
回過頭來說捏老提的問題。人工智慧下棋，會根據勝率而不是根據勝的大小。人工智慧只要確保勝利，下的會相對保守。舉個例子，比如當人工智慧佔優勢時一步好棋，百分之九十九能大獲全勝，百分之一可能輸，而不走這步棋，百分之百贏，計算機就不會去走。而人類往往傾向於大獲全勝。因為至少一般情況下看不出輸的可能性。
人類的計算能力不如計算機。
3 # 塵眼看塵

好像會。根據deepmine公開的論文，alphazero對李世石版alphago基本保持全勝，但自學200小時的alphazero對自學100小時的alphazero只保持勝率的優勢，以此遞推，勝率是收斂的。

4 # 霹靂火76228767

因為我們不知道alphago使用的數學模型，因此只能透過人工智慧通常使用的邏輯方法來推算。

一、機器學習。假如AL（簡稱了）使用的是機器學習的方法，而不是利用某種直接與圍棋有關的數學模型，那麼，AL產生的最終邏輯，往往是人類所不能理解的。從使用機械學習方法的兩個人工智慧自主學習自主交流，產生人類不可理解的“語言”實驗來看，如果AL使用純粹的機器學習方式，我們將看不懂它下的棋。
二、我們能看懂它下的棋，而且能夠描述它收斂的特徵，那麼，這是明顯的機率數學模型的特徵。例如馬爾科夫鏈一類的方法。

三、基於報道，AL學習了大概棋譜。也就是它實際採用了機械學習的方法，建立自己的操盤風格。之後基於機率數學從眾多可能性中選擇一種操作方案。這是從成功率最大、或者最穩妥、或者佔用勢或子最多等多個條件因素之中形成的條件數學模型中做出選擇。這部分的特徵，可以透過下棋的結果觀察出來。在接近收官，它明顯是採用了保守的贏率最大的方案。

四、如果自我對弈，這將成為它自己的機率數學問題。也就是左手贏的機率大，還是右手贏的機率大問題。由於使用同樣模型，其機率為50%。也就是多下幾盤，左右手最終贏棋的機率逼近50%。它的收斂特徵是數學模型固定的。如果不改源程式，依然會體現出收斂特徵。
五、如果兩臺機器對弈，同樣程式，將產生同樣的機率結果。

但是如果有一臺機器改變演算法或模型，這個結局待定。假設中國的人工智慧需與AL對弈，在不瞭解它程式的前提下，可以利用聶老的思想轉化為數學模式，而不使用開始的機器學習的方式，之後的邏輯部分就算一致，我方也有勝算的可能性。

機器學習的方法是收斂逼近，尋找機率和勝率的平衡。但是，使用人為數學模型的優勢在於，重在看勢，求活即可。這才有勝算可能。

∧ 中秋節和大豐收的關聯？

∨ 有那些四字成語第三個是滿的成語是？

熱門排行

劇多

AlphaGo在自我對弈時會不會陷入收斂？