老喻在加
01
人生難料,世事無常,大多是“原因”和“結果”之間的糾纏。
故事A
某地空氣極好,但是當地死於呼吸系統疾病的患者數量,卻名列全國前幾位。
為什麼呢?
原來,因為空氣好,所以大量有呼吸疾病的患者前來療養。就像醫院裡死人最多,所以這裡的呼吸疾病死亡人數也較多。
所以,空氣好,是“呼吸疾病死亡率”的原因的原因。
但是“空氣好”,並不能成為“呼吸疾病死亡率高”的原因。
這就是:
原因的原因,不是原因。
故事B
我有個親戚,開服裝廠,行業每況愈下,總說要關門。去年底好容易接了幾個大單,年初因為疫情,訂單被砍掉了一大半!
結果沒幾個月,他們不僅沒關門,生意還前所未有的好。
為什麼呢?
原來,因為印度疫情嚴重,而中國控制較好,所以前些年轉到印度的訂單,又轉回中國了。
所以,親戚服裝廠的生意轉好,是疫情的“結果的結果”。
而這種結果,通常是第一個“結果”(例如疫情導致的對經濟的影響)發生時,人們難以預料的。
這就是:
結果的結果,不是結果。
本文將探究“原因的原因不是原因、結果的結果不是結果”背後的邏輯。
我最想探討的焦點問題是:
對未來的計算,我們到底應該算很多步,還是走好當下的那一步?
這個問題,經常被從兩個對立的角度,分別出現於各類文章裡:
A面:我們應該看得更長遠;
B面:我們應該立足當下,做好眼前的事情。
你也許會說,難道A、B不能相容嗎?
問題是,你如何區分:何時該選擇A面的長遠,何時該選擇B面的當下呢?
這個話題比看上去要有趣得多,也是“決策”方面的關鍵點。
這是一個跨越自然世界與人類社會的有趣話題,也指向人類歷史上最聰明的那些傢伙們的思想閃耀時刻。
並且,這一話題甚至還會引出當前這個混亂世界裡的“生存法則”。
或許,我們與未來的關係,有賴於重新理解“原因的原因”,和“結果的結果”。
讓我們開始這段歷險吧。
02
先說“原因的原因,不是原因”。
乍一看很奇怪,房價上漲不是很開心嗎?
杭州某小區傳來勵志故事,為了實現房價的快速上漲,家長們組團抓孩子的教育,成功將該小區打造成學區房,房價變成原來的10倍。
難道溫哥華土豪很傻?
原來,土豪們抗議的原因是,因為房價上漲,導致物業稅跟著漲,每年多繳不少錢。
尤其是有些房子因為房價上漲,被劃分為“豪宅”,還要額外繳一筆“豪宅稅”,每年高達幾萬加幣。
許多屋主的房子,是幾十年前很低價格買的,房價大漲成為豪宅,但屋主的收入並不“豪”,對新增的稅費難以承受。
所以,“土豪”們表面上是抗議房價上漲,實際原因是反對加稅。
而房價上漲,是“加稅”這個原因的原因。
為什麼原因的原因不是原因呢?
先轉一個例子:
假設有人嚇走了一隻鴿子。鴿子飛走的時候,驚到了一位正在穿越街道的路人。路人駐足觀望,結果導致一輛正在朝他騎過來的腳踏車不得不在最後一秒急轉車頭。腳踏車避讓行人後,正好騎到了一輛計程車行駛的車道上。計程車為了避讓腳踏車,結果撞上了一個消防栓。消防栓出水導致附近一棟大樓的地下室被淹,破壞了地下室的供電設施。
雖然嚇走鴿子是啟動整個原因鏈的原因,我們也可以認為是嚇走鴿子這件事導致了後面的一系列事件,但很少有人會認為嚇走鴿子的那個人應該對之後出現的一系列事件負責——即使很多人都同意是那個人引起了這一系列的事件。
但是,我們可以說,是鴿子導致了這場事故嗎?
又比如說,我記得有一次趕聯程的國際航班,結果僅僅晚了不到一分鐘,所有的航程都不得不取消掉重新購買。
那麼,是不是可以說,此前的每一分鐘,都可能要成為這“遲到”的一分鐘的原因?
壓死駱駝的最後一根稻草,是真正的兇手嗎?還是說此前的每一根稻草都要為此負責?
假如此前的稻草,只是原因的原因,所以不算直接原因,那麼為什麼人們又說:
“一隻蝴蝶在巴西輕拍翅膀,可以導致一個月後德克薩斯州的一場龍捲風。”
真是世事無常。
03
再說“結果的結果,不是結果”。
據傳,英國殖民印度時期,計劃要減少眼鏡蛇的數量,因而頒佈法令說每打死一條眼鏡蛇都可以領取賞金。
一看有賞金,印度人為了多拿錢,反而開始養殖眼鏡蛇。
英國人一看事與願違,於是取消了賞金。
沒了大買家,養蛇的印度人把蛇都放了。
結果,眼鏡蛇數量反而大幅增加了。
當年法國殖民越南時,也有類似的事情,為了滅老鼠,政府出了一個獎金計劃:
只要將老鼠殺死,將尾巴交給政府就可以獲取獎金。
同樣的荒誕劇上演了:很多人抓住老鼠,切下尾巴去拿獎金。
老鼠呢?放走,令其大量繁殖,這可是財神鼠,怎麼能殺呢?
這就是“古德哈特定律”:
當一個措施本身成為目標時,它就不再是一個好的措施。
在經濟學領域,古德哈特定律說:
若一個經濟學的特性被用作經濟指標,那這項指標最終一定會失去其功能,因為人們會開始玩弄這項指標。
所以,這就解釋了,為什麼很多美好的願望,常常有糟糕的結果。
而不少“正確的計劃”,最終也以錯誤的“結果的結果”收場。
舉例說,有研究表明,更好的登山裝置,可能會令登山愛好者遭遇風險的可能性更大。
更好的登山裝置的直接結果,應該是保護登山者。但登山者因為這增加的保護而更大膽,反而導致了更大的風險這一“結果的結果”。
有個實驗讓我印象深刻。試驗者測試:
騎腳踏車不戴頭盔,會如何影響汽車駕駛者。
結果發現,假如司機發現前方騎腳踏車的人沒帶頭盔,會離腳踏車更遠。
我們知道,騎腳踏車的主要危險是被機動車撞,戴頭盔是為了緩衝撞擊。
但是,不戴頭盔,反而獲得了更大的安全空間,令騎車的人可能更安全了。(這僅是一個區域性的實驗)
真是人生難料。
04
是什麼導致了“原因的原因不是原因、結果的結果不是結果”?
為了使本文不至於太讓作者和讀者受累,我簡單概括瞭如下8點原因,供你作為腳手架或線索:
1、人類對因果的“幻覺”;
2、誤將“相關性”當作“因果性”;
3、因果之間距離過大;
4、混淆了原因和結果;
5、對條件機率的混亂;
6、人類的無知和科學的侷限;
7、過於依賴確定性;
8、“自上而下”的習慣思維。
儘管沒多新鮮,但為了完備性,簡述如下。
1、人類對因果的“幻覺”
人類對“因果”有很深的執念。
休謨老師早說了:
雖然我們能觀察到一件事物隨著另一件事物而來,我們卻並不能觀察到這兩件事物之間的關聯。
當我們看一本小說,或者看一部電影,會分析其中劇情的連續與轉折。
但是現實生活中,並沒有作者和導演,所以並不需要這種連續性。
休謨如先知般,講出了下面這段貌似有些槓精的話:
“我們無從得知因果之間的關係,只能得知某些事物總是會連結在一起,而這些事物在過去的經驗裡又是從不曾分開過的。我們並不能看透連結這些事物背後的理性為何,我們只能觀察到這些事物的本身,並且發現這些事物總是透過一種經常的連結而被我們在想像中歸類。”
休謨還提了“恆常連結”這個詞,意思是說,某兩樣東西貌似總是前後出現,但你也不能說二者之間是一直“互相連結”的。
看似很槓,其實,休謨如先知般,說出了300年後人們才想明白的一件事:
相關性不等於因果性。
2、誤將“相關性”當作“因果性”
有統計表明,游泳死亡人數越高,冰糕賣得越多。
即:游泳死亡人數和冰糕售出量之間呈正相關性。
那麼,能得出“吃冰糕會增加游泳死亡風險”的結論嗎?
並不能,這兩個事件之間並無直接因果關係。二者只是因為夏天高溫而“連結”在一起,而且是以機率的形式。
所以,少吃冰糕並不能救人於水中。
這類“隱變數”,經常被我們忽略。
3、因果之間距離過大
“一塊錢不是錢,所以一塊錢和十萬塊錢之間沒區別。”
看起來有點兒怪?
第1個人給第2個人一塊錢,因為一塊錢不是錢,所以給兩塊錢。
第2個人則給第3個人三塊錢,因為和兩塊錢也只差“不是錢的一塊錢”。
由此不斷往後,第十萬個人將得到十萬塊錢。
原因和結果之間的距離,有時候可以用來評估因果之間連線的強弱。
通常,我們說:近因就是和結果直接相連的原因。
在法律上,近因還具有可預見性。
即:人們應該能夠預見該原因可能會(直接)導致某個結果。
這個很實用。例如你的朋友為了給你買蛋糕,開車時遭遇了車禍。你不必為此過於內疚。
因為即使兩件事“非常近”,但是因為你的朋友出門時,並不能預見會發生車禍,所以這不算“近因”。
4、混淆了原因和結果
這是最被廣泛“應用”的因果謬誤。
例如,有研究表明,紅酒令人長壽。
甚至於研究過程看起來都很靠譜。兩組人,一組喝紅酒,一組不喝,樣本量足夠,實驗時間也夠長。
但這裡最大的謬誤,可能是:有錢人更可能有閒有錢喝紅酒,是有錢導致長壽,而不是紅酒。
也可能是,喝紅酒的人喜歡社交,而社交令人長壽。
又或者是,有長壽基因的人傾向於社交,而喝紅酒只是社交的一種道具。
幾乎所有長壽秘方和發財秘訣,都是犯了因果顛倒的謬誤。
許多研究發財秘籍的書籍,採用的方法,是研究“大量”(其實只是“少量”)成功者的共性,以從中發現“規律”和“秘訣”。
可惜,大部分都是“先射箭後畫靶子”的總結。
又例如說價值投資令人長壽,但事實是長壽(且運氣好)的人才有機會收穫長線價值。
就像巴菲特調侃的,自己喜歡喝可樂,是因為他發現小孩子最愛喝可樂,而小孩子的死亡率最低。
5、對條件機率的顛倒
這一點,比“因果顛倒”更隱蔽。
辛普森是個美式橄欖球明星、演員,他被指控於1994年犯下兩宗謀殺罪,受害人為其前妻及她的好友。
儘管警方在案件現場收集到了很多證據,包括帶血的手套、血跡、現場DNA檢驗,看似辛普森難逃被定罪伏法的命運,可是辯護律師們透過各種方法一一化解。
辛普森高價請來了頂級律師團,其中一位是哈佛大學法學院的教授Alan。
Alan在法庭上用機率來為辛普森辯解:
已知:美國400萬被虐待的妻子中只有1432名被其丈夫殺死。 所以:辛普森殺死妻子的機率只有1432/400萬,即1/2500。因此:辛普森殺死妻子的機率是非常低的事件,即辛普森幾乎不可能殺死他的妻子。
辯詞聽起來很有道理,檢察官一時無法反駁。
問題出在哪兒呢?
讓我用直觀的方式,來分析一下。
先看下面這個圖,藍色圓圈代表被虐待的美國400萬妻子,紅色代表1432名被丈夫殺死的妻子。
律師的邏輯看起來沒毛病,你看圖中,算下來虐待妻子的老公,只有一小部分(也就是1/2500)謀殺了妻子。
如上圖,1/2500是“紅色面積/藍色圓圈面積”的結果。
但是,律師偷換了概念。
再看下面這個圖,藍色圓圈代表被虐待的美國400萬妻子,紅色代表1432名被丈夫殺死的妻子。
這裡新加了一個綠色的圓圈。其資訊如下:
因為我們討論的是被謀殺的被虐待妻子,所以綠色圓圈被包含在藍色圓圈內;因為並不是所有被謀殺的妻子都是被丈夫殺害的,所以紅色圓圈被包含在綠色圓圈內,“問號”部分表示那些被別人謀殺的被丈夫虐待的妻子。你看看,即使不知道兇手是誰,辛普森的妻子應該在哪個圓圈裡?
是綠色圓圈。
所以,辛普森是兇手的機率,應該是用紅色面積除以綠色面積。
律師的鬼把戲是什麼?
他用藍色替換了綠色,用“紅色/藍色”的虛假機率1/2500,替換了“紅色/綠色”的真實機率。
那麼,這個真實機率應該是多少呢?
據統計,高達90%!
條件機率的顛倒,看似很簡單,但迷惑性極強,連聰明人也不能倖免。
6、人類的無知和科學的侷限
生物學家愛德華·威爾遜寫道,如果自然的歷史是一座圖書館,我們甚至還沒有讀完其中第一本書的第一章。
我們教科書上的公式,以及那些令這個世界執行得還算不錯的原理,極有可能只是一個謬誤較少的假設,某日會被推翻。
人類的知識不完善,不準確,有時候帶來的麻煩甚至大於解決的問題。
薩特雅吉特·達斯舉例說,抗生素的流行增加了耐藥性,由此帶來的“不是結果的結果”是:
到2050年,所謂的“超級細菌”會導致全球1000萬人死亡,這將給全球經濟帶來100萬億美元的損失。(來自一份英國的報告)
他由此總結道:
由於不正確的假設、錯誤的因果聯絡、輸入的噪聲多於資料,以及未被預測到的人為因素,經濟模型經常遭遇反覆失敗。預測被證明是不準確的。模型總是會低估風險,從而導致金融危機的爆發。
7、過於依賴確定性
關於人對確定性的迷戀,是陳詞濫調。但我發現,幾乎可以用這一點來為人分類:
一種是理解不確定性的;一種是不理解不確定性的。
詭異之處是,對不確定性的理解,與智商無關,與學歷無關。
而且有些人天生就理解,有些人一輩子都無法理解,不管他如何學習,如何歷練。
很有趣的是:
人們對於需要追求確定性的事情,例如投資,以及一些關乎幸福的關鍵決策,往往不假思索。反倒對那些無法預料、需要伸手去觸碰的事情思前想後。
8、“自上而下”的習慣思維
人類習慣於追尋目的和意義,並且相信目的與意義背後的設計者。
由此,我們強調謀略、設計、規劃,仰慕天才自上而下改變世界。
我們到底該如何解釋這個世界所發生的一切?尤其是其中那些壯闊的、戲劇化的、千鈞一髮的歷史轉折點?
亞當·弗格森說:這些都是人類行為的結果,而非出於人類的設計。它們是演變現象。
不管是有神論者,還是無神論者,我們的習慣思維,都偏向於智慧的設計。
我們潛意識裡相信,有某種“天鉤”,自上而下地排兵佈陣,計算好了日月星河,安排好了萬物生長,並且用某些我們已經看到或尚未看到的秩序編織在一起。
我們總覺得這種編織,有藍圖,有邏輯,有目的,並且是連續的。
事實並非如此。
真實的世界是自下而上生成的。
支撐我們信念的“因果鏈條”,只是比象形的星座文化稍微好一點兒的東西。
05
作為亞當·斯密與大衛·休謨的朋友,弗格森強調自然而然所形成的秩序,即:
完整且有效的成果必定是來自許多人之間非規劃好的行動。
《自下而上》認為:
演變就發生在我們身邊。它是理解人類世界和自然世界如何變化的最佳途徑。人類制度、人工製品和習慣的改變,都是漸進的、必然的、不可抵擋的。
它遵循從一個階段進入下一個階段的敘述方式;它慢慢推進而非大步跳躍;它有自己自發的勢頭,不為外部所推動;它心裡沒有什麼目標,也沒有具體的終點;它基本上是靠試錯產生的,而試錯是自然選擇的一種形式。
達爾文可能是最被我們低估的科學家之一,在很多人的心目裡他甚至算不上牛頓那類“硬核”的科學家。
“自上而下”的思維,令我們習慣於在混亂無序的世界裡尋求解釋,就和原始人以及導遊熱衷於在一個大石頭的形狀背後編造傳說。
性格溫和的達爾文,不知是否想過,“達爾文主義”會被用來形容弱肉強食的生存哲學。
徹底接受達爾文的思想,是一件不容易的事情,即使達爾文自己,也對“眼睛”這一精妙的“設計”不寒而慄,如此複雜的功能,真的可以透過自然選擇形成嗎?
達爾文堅持了自己的理性,而DNA的發現則確認了達爾文的勇敢。
促使眼睛總對光做出反應的“視蛋白”分子,可以追溯到所有動物的共同祖先身上(海綿類動物除外)。大約7億年前,視蛋白基因複製了兩次,產生了我們今天擁有的3種感光分子。故此,眼睛演變的每一個階段,從感光分子的發展、透鏡和色覺的自然形成,都可以從基因的語言裡直接讀取。
如果我們用演化論來撼動人類社會里至今仍然大規模使用的“自上而下”的話語體系,會不會像“基因決定論”一樣,將個體匯入命中註定的宿命論,以及存在毫無方向的虛無主義?
如果說地球生命孤寂、漫長、奇蹟般的演化程序,是一個“耐心又無意義的過程”,那麼人類的自由意志,在這個過程中扮演著什麼角色?
如果如道金斯所言,演化的真相是“從原始簡單形態中構建有序複雜性”,那麼人類社會為了“目標、規劃、干預”而構建的功能,該如何從自然法則(假如真有的話)中尋求借鑑?
再拉回到個體,幾乎所有美好傳說,振奮人心的成功秘訣,都是基於環環相扣的因果鏈條,也需要“自上而下”的光芒的指引。如果我們將此一刀斬斷,又將如何重建意義和秩序呢?
06
讓我們回到現實。
演化論,自下而上,是不是說“規劃無用”?
但是,達爾文不正是使用一種“鳥瞰式”的視野,發現了“演化論”嗎?
但願你還記得開頭,我提到本文最想探討的焦點問題是:
對未來的計算,我們到底應該算很多步,還是走好當下的那一步?
由此引發的,不僅是對一個人生道理的思考,更是對決策本質的理解。
我曾經寫過,厲害的人都是人肉阿爾法狗。
什麼叫人肉阿爾法狗?
先看阿爾法狗如何做決策。
阿爾法狗幾乎會在每一手棋時,都計算自己的贏棋機率。
即:對它而言,每一個決策點都是獨立的,阿爾法狗都會冷靜地尋找“當下”的最大獲勝概率。
聽起來,這不也是人類棋手下棋的方法嗎?
有什麼不一樣呢?
難道人類的職業棋手下棋時,不也是如此嗎?計算每一手棋,推算可能的走法之後的變化,比較結果的優劣,然後從中選擇最優的一手。
要想理解這一點,我需要在很短的時間裡,來說說圍棋的“特別之處”。
對比其它棋類,圍棋有如下特點:
極其複雜,棋局變化的可能性約等於2.08x10^170種,比整個宇宙裡的原子數量還要多很多。棋子都是一樣的,反而更難評估優劣。象棋越下棋子越少,圍棋越下棋子越多。圍棋既有區域性精確的計算,又有宏觀局面模糊的判斷。
因為不止於以上數點的原因,所以,人類以前用來對付國際象棋的那一套窮舉搜尋,難以用來解決複雜的圍棋,因為搜尋空間太大,無法寫出精確的評估程式。
這也是圍棋棋手的自豪之處。圍棋被視為完美博弈遊戲的巔峰,其中被視為體現了人類靈性的那部分,象徵了人類大腦引以為榮的對抗AI的智慧堡壘。
阿爾法狗的策略是,學習人類的直覺。
DeepMind的創始人哈薩比斯說:
“圍棋中沒有等級概念,所有棋子都一樣,圍棋是築防遊戲,因此需要盤算未來。你在下棋的過程中,是棋盤在心中,必須要預測未來。小小一個棋子可撼動全域性,牽一髮動全身。”
如今,人們已經接受了AI在圍棋上碾壓人類,我也經常忙中偷閒看AI和人類下讓子棋。
我總結了如下10點,不是從技術層面去分析AI下圍棋的原理,而是試圖從AI下棋的十個特點中學習“阿爾法狗思維”,以改善人做決策的思維。
1、AI不講棋理。
什麼叫棋理?
棋理可能介於公式和道理之間。
算是一些模糊的“夾層解釋”。
對比很多人生大道理,棋理,以及各種圍棋格言,已經算很靠譜了,有些圍棋格言看起來連AI都在“遵循”,由此可見經驗和人類群體智慧的厲害。
但AI並不需要棋理,它的世界裡只有計算。
年輕人不講武德…
其實,有些德啊,理啊,要麼是因為不夠智慧,要麼是用來忽悠外行和年輕人的。
2、AI一心一意,只為終局勝率。
圍棋只要勝半目就贏,這是一盤棋勝負的唯一評判方式,和你是否下得漂亮、是否走出了妙手、殺死了對手多少棋子等等都沒啥關係。
這是基本規則,按理說AI和人的理解都一樣啊,能有啥區別?
區別很大。人是情感動物,在某個區域性殺紅了眼,經常就要爭口氣,爭一下就忘記了自己的目的不是爭氣,是贏棋。
在圍棋中,有個名詞叫“氣合”,是指對局者在氣勢上堅持的強勁著法,經常是雙方都較勁兒,結果互相轉換。
由此延伸的概念,就有“動機”,以及“評價系統”。
這二者在現實中都是決定性的玩意兒,動機就不用說了,這是人性的火源。
評價系統,有點兒像巴菲特說的內部計分卡或者外部計分卡。
評價系統對於一個人或者企業來說,就是其使命、願景、價值觀。
這些看起來假大空的東西,真的很有用。
為什麼?
圍棋可以用半目來定勝負。但人類社會是複雜的沒邊界的無限遊戲,有了價值觀這類東西,更有利於個人或企業在模糊的領域做計算。
3、AI下沒有記憶的棋。
AI經常脫先,甚至在很多看起來重要的地方,說不下就不下,跑到別處走棋了。
看起來,轉身非常靈活。
當然,AI不懂什麼叫轉身,什麼叫靈活,它永遠在搜尋計算當前局面下對終局勝率最高的一手棋。
沉沒成本、糾結、放不下,這是人類文化的副產品。
4、AI大局觀好,有遠見。
哎,其實就是算力強。
人類算力不夠,就製造了一些概念。
大局觀啊,遠見啊,就是一步一步算出來的,當然有些人可以跳著算。
但絕對不是什麼屠龍術。
別指望去學來什麼大局觀、遠見、一眼看穿本質的能力。
脫離了計算的長期主義毫無意義。
5、AI很本分。
什麼叫本分?
就是該穩的時候穩住,絕不心存僥倖,絕不能想“萬一對方傻逼一下呢”,尊重每一個對手,堂堂正正;
更重要的是,該狠的時候一定要狠,絕不手軟。畢竟是下棋嘛。
AI經常走出很平常的招法,像緩慢的鐵錘,樸實,強大,效果之好令人意外。
6、AI都是宇宙流。
稍微懂點兒圍棋的,都知道“金角銀邊草肚皮”,意思是說中腹不要圍空。
人類歷史上敢下中腹且下得好的,可能只有吳清源和武宮正樹。
AI既能爬二路,又非常會圍中腹。
真的是“高手在腹”。
說來說去,還是計算力強。
7、AI連厚勢都敢攻。
你自己以為固若金湯,在AI看來是一塊兒準備吃的肉。
而且吃起來,像蟒蛇吞噬獵物,緩慢,毫無生路。
人類對於“厚”和“薄”的感覺,在AI面前弱爆了。
8、AI捨得棄子。
反正它只算勝率,你要佔便宜就給你唄。
9、喜歡刺、碰、肩衝。
這些人類看來並不那麼正經的動作(相當於打架時老去蹭人家一下),AI用得得心應手。
10、精通死活和官子。
AI經常表演“做活大法”,有些看起來毫無希望的棋,它也能用不起眼的方式做活。
AI的妙手也很多。幸好看習慣了,不然真的就像看見你家狗在輔導你家孩子做奧數題。
總之,看AI下棋,最大感覺就是:
嚴格以終局勝率為目標,按照計算來算勝率,嚴格按照勝率來做決策。
我們再看那些投資大師,那些決策高手,就會發現,這方面,他們幾乎和AI都是一樣的。
說起來容易,做起來難,為什麼?
因為“反人性”。
不說10點,單是第3點“下沒有記憶的棋”,就很少有人能夠做到。
07
圍棋有一點特別奇怪的地方。
圍棋是與順序有關的遊戲。
圍棋棋子除了顏色以外,完全一樣,不像象棋那樣分帥車兵馬。另外,圍棋的棋子,落下之後就不能移動。圍棋棋子的效率和價值,是由棋子之間的空間關係而決定的。就像搭傢俱或者樂高玩具,即使空間位置對了,但如果順序錯了,也不行。
可是,對於一局棋的過去而言,“順序”並不重要。這就是“奇怪”的地方。
讓我略去圍棋關於時空的思考過程,來概述一下:
當我們站在圍棋對局中的某個決策點上,當下的局面,是所有“已知”構建的一個靜態空間結構圖,單個棋子當初的使命、順序,並不能作為決策的依據。
相反,你要像一個剛剛空降到棋盤邊的外星人,壓根兒不在乎當前局面的發生過程,包括順序,而是從頭開始思考。
看起來,這似乎是一個“馬爾可夫決策過程”。
馬爾可夫性是一種假設:“未來的一切僅與現在有關,獨立於過去的狀態”。
馬爾可夫模型,這一概念來自對“大數定律”的探討。
大數定律裡的拋硬幣遊戲,需要每一次拋硬幣都是完全獨立的。
而數學家帕維爾·涅克拉索夫則認為:現實世界中的事物是相互依存的(比如人的行為),所以現實中的事物並不恰好符合數學模式或分佈。
馬爾可夫不這麼認為。他建立了一個模型,在這個模型中,結果的機率取決於以前發生的事件,但長期來看仍然遵循大數定律。
《天才與演算法》裡寫道:
拋硬幣的結果並不取決於以前拋硬幣的結果,所以這不是馬爾可夫理想的模型。但是,如果增加一點依賴關係,使下一個事件取決於剛剛發生了什麼,而不是整個系統如何影響了當前事件,又會怎麼樣呢?每個事件的機率僅取決於先前事件的一系列事件被稱為馬爾可夫鏈。預測天氣就是一個例子:明天的天氣肯定取決於今天的天氣,但並不特別依賴於上週的天氣。
馬爾可夫鏈,為狀態空間中經過從一個狀態到另一個狀態的轉換的隨機過程。
該過程要求具備“無記憶”的性質:下一狀態的機率分佈只能由當前狀態決定,在時間序列中它前面的事件均與之無關。
馬爾可夫模型構建的意義,是為了探尋未來的最優策略,以及馬爾可夫性與歷史總是不相關的,僅與當前狀態有關。所以一切模型構建均是圍繞未來進行展開的。
圍棋的對弈,可以視為馬爾可夫決策過程:
起始狀態是一個空的棋盤,棋手根據棋面(狀態)選擇落子點(動作)後,轉換到下一個狀態(轉換機率為:其中一個狀態的機率為 1,其他狀態的機率為 0),局勢的優劣是每個狀態的回報。棋手需要根據棋面選擇合適落子點,建立優勢並最終贏下游戲。
(本段來自劉思鄉)
AlphaGo 是一個基於深度神經網路的圍棋AI,其秘密在於透過深度學習和強化學習來“自學”。
深度強化學習可以概括為構建一種演算法(或AI智慧體),直接從與環境的互動中學習。
這其中,就有馬爾可夫獎勵過程,也就是:含有獎勵的馬爾可夫鏈,
Artem Oppermann如此介紹:
環境可以是真實世界,電腦遊戲,模擬,甚至棋盤遊戲,比如圍棋或象棋。就像人類一樣,人工智慧代理人從其行為的結果中學習,而不是從明確的教導中學習。在深度強化學習中,智慧體是由神經網路表示的。神經網路直接與環境相互作用。它觀察環境的當前狀態,並根據當前狀態和過去的經驗決定採取何種行動(例如向左、向右移動等)。根據採取的行動,AI智慧體收到一個獎勵(Reward)。獎勵的數量決定了在解決給定問題時採取的行動的質量(例如學習如何走路)。智慧體的目標是學習在任何特定的情況下采取行動,使累積的獎勵隨時間最大化。
如下圖:
讓我們跳出這些我也不太懂的地方,回到現實中,看看人類可以從阿爾法狗那裡學到什麼決策方法。
我總結如下:
阿爾法狗每下的一盤棋,都是一次自我進化的學習過程,工作即學習,學習即工作;阿爾法狗的唯一目標是終局勝負,因此而有強烈的使命感,鋼鐵般的意志,和石佛般的平常心(儘管它不需要這些形容詞);
把每一手棋,都當作一個獨立決策點,將當前的整個局面視為一個初始狀態,根據當前局面,發現(模仿人的直覺)獲勝機率較高的幾手棋,並估算每一手棋的終局勝率;從中選擇最優決策;等對方落子後,再次進入“初始狀態”,根據更新的資訊,重複以上動作,直至終局。
08
“圍棋應該自由舒展,妙趣橫生地下。因此,我覺得應該把整個棋盤當做自己的舞臺。”
這是我買的第一本圍棋書的開篇第一句話,作者是大竹英雄,當年著名的超一流棋手,人稱“美學棋士”,是勝負世界的“求道派”。
多年以後,看到AI下圍棋,我會感慨這些人類頂尖棋手在“道”上的追求,與“冷血”的阿爾法狗們不謀而合。
但願你還記得本文的標題:
原因的原因不是原因,結果的結果不是結果。
在這個充滿未知和不確定性的世界裡,我們對於確定性和連續性有太多幻覺。
我們對過去有太多懊惱,對未來有太多恐懼。
對於過去,我們有太多“要是...就好了”,要是多買幾套房就好了,要是茅臺股票沒早拋就好了,要是我高考數學不丟10分我可能就上985然後去了騰訊拿股票漲了一百倍全倉殺入比特幣逢高變現買了深圳灣的十套房子......
在這個不確定的隨機世界裡,熟知馬爾可夫鏈的阿爾法狗是人類做決策的好老師。
在人肉阿爾法狗眼中,過去沒有故事,沒有假設,沒有悲喜得失,沒有得意或遺憾,凡事皆能放下,絕不維護自己的過往和顏面,一切只是“人生若只如初見”的初始狀態。
對於未來,我們太畏手畏腳。我們總是想準備好一切,想某個完美時刻可以重新出發,想算好下一手,下一手的下一手,再下手,萬無一失再撒鷹。
而人肉阿爾法狗呢?的確,他們對每一手都會算得很深,並將終局勝率作為唯一的價值函式。但是,在做決策時,他們只會專注而冷靜地下一手,而絲毫不擔憂下下下手該怎麼辦。
思考時“望見山那邊”,行動時則信奉“車到山前必有路”。
一個有趣的現實是:
就像每天都是你餘生中最年輕的一天,面向未來的決策不管多麼艱難,在決策選項中,你總能發現相對最優的那一個。
假如在此過程中,你還能將其變成一個馬爾可夫獎勵過程,滿足於機率的提升,而非暫時的成敗,那麼你就離人肉阿爾法狗更近了一步。
拋開這些理性的計算與現實的得失,以上種種,甚至可能是你我探究人生本義的唯一途徑。
海德格爾說,生命就是兩段永恆的黑暗之間的一段偶然而短暫的光明。
這道光明,位於“原因的原因”,與“結果的結果”之間,如一掃而過的探照燈,只有靠置身黑暗之中才能實現。
最後
“很長一段時間,我的生活看似馬上就要開始了,真正的生活,但是總有一些障礙阻擋著,有些事得先解決,有些工作還有待完成,時間貌似夠用,還有一筆債務要去付清,然後生活就會開始,最後我終於明白,這些障礙,正是我的生活。”
我喜歡艾弗利德•德索薩的這段話。
我喜歡圍棋的黑白世界,單純而複雜,殘酷且美好,並且是很好的決策練習場。
老子說:知其白,守其黑。
黑白之間,即為灰。
現實是灰度的,而我們的此刻必須做出黑白分明的選擇。
這就是我說的“灰度認知、黑白決策”。
海德格爾在引用老子的“知其白、守其黑”時,將其譯為:
那知光亮者,將自身隱藏於黑暗之中。
進而,他解釋說:
“有死之人的思想必須讓自身沒入深深泉源的黑暗中,以便在白天能看到星星”。
如何在白天看到星星?
張志偉對此解讀:
黑暗有黑暗的清澈,不過我們沒有洞悉黑暗的眼睛。於是我們點亮了燭光,企圖照亮整個宇宙。然而,我們越來越固執於光明,在此光明中營造自己的家園,反而遺忘了那深不可測無邊無際的黑暗,遺忘了我們本源的家。
他還講了一個故事,說有個人丟了鑰匙,在路燈下尋找。別人問,你是在這裡丟的嗎?那個人回答說:不知道。
既然不知道,為什麼還在這裡找呢?那個人回答說:只有這裡有光亮。
人類的存在極其偶然,於有限的歲月裡編織的因果傳說,在無盡的宇宙裡只是一縷暗淡的光亮。
我們該如何找尋不在燈下的丟失之物?
海德格爾的回答是:
“讓自身沒入深深泉源的黑暗之中”。
—THE END—☀本文選自孤獨大腦