不知道你注意過沒有,為什麼在抖音這樣的短視頻平臺上有的視頻有幾百萬甚至更多的播放量,而絕大多數視頻壓根就無人問津呢?為什麼有的人這麼有錢,而像我們這樣的芸芸眾生只能溫飽呢?為什麼我們經常使用的漢字也就兩三千個,字典裡的絕大多數漢字(總數9萬多個)見都沒見過?這都是因為叫做冪律分佈的魔鬼在搗蛋。
1.冪律分佈的特徵
經濟學家帕累託在19世紀的意大利,發現極少數的富人賺走了絕大部分的錢,大部分家庭的收入都很低,基於這個發現,後來命名為“冪律分佈”。他的這一發現被後人稱為“帕累托法則”,也叫“二八定律”,也就是20%的人獲得了80%的收入。
用《新約·馬太福音》裡的話就是:“凡有的,還要加倍給他叫他多餘;沒有的,連他所有的也要奪過來。”用現在的話來說,就是“窮者越窮、富者越富”。我們生活中各式各樣的現象,從點擊量、關注度、語言、城市人口,還有人脈、財富、聲望,都遵循的是冪律分佈。
冪律分佈的圖像長這樣:
圖裡橫座標代表隨機變量的取值,縱座標代表發生的概率。冪律分佈就是一條向下的曲線,拖著一個長長的尾巴,它的含義就是它的數據波動非常地大,少數點的數值特別高,大多數的點數值都很低,最大和最小的點之間,可能相差好幾個數量級。
冪律分佈有個好玩的數學特徵,就是無標度,也叫“無尺度”“尺度無關”,意思是在任何觀測尺度下,都呈現同樣的分佈特徵。比如,圖書銷量是服從冪律分佈的,最暢銷那本書的銷量在前10名銷量中佔的比例,和前10名的銷量在前100名的銷量中佔的比例,和前100名在前1000名的總銷量中佔的比例,大體都是相同的。
2.冪律分佈來自不獨立的隨機變量作用的結果
大家知道一個詞叫“馬太效應”。比如去書店買書,大部分人會優先關注那些上了排行榜的“暢銷書”。越暢銷的書就會越容易被關注,而越容易被關注就讓它進一步更暢銷。冪律分佈使得圖書市場中會出現少量特別暢銷的書,而絕大多數書的銷售成績都很差。這就是不獨立帶來的後果,因為你做決定的時候是在模仿別人,其他人也在互相模仿,不獨立的行為就導致了冪律分佈。
冪律分佈模型還來自於複雜系統的“自組織”現象。一個系統在變大、變複雜的過程中,它的各個部分互相依賴的程度將會增加。到了一個臨界點,因為互相關聯實在太緊密了,一部分出個小問題就會導致整個系統出大問題,那就是雪崩式的災難。
3.冪律分佈是個無法預測的魔鬼
一是冪律分佈讓平均數失去意義。如果數據變化幅度非常大,那麼平均值毫無意義。這是統計個人收入或者城鎮居民收入的時候平均數完全沒有意義,比如我和馬雲一平均我也是超級富豪了,這完全沒有任何意義。
這就是冪律分佈,隨機變量波動的範圍非常大,常用的平均值、標準差到這裡都沒用了。冪律分佈就是一個喜怒無常的魔鬼,讓已有的秩序和工具全部失效,使一切變得難以捉摸。
二是冪律分佈讓原本不會發生的極端事件發生。雖然極端數據出現的概率很低,但這個概率永遠不會趨近於0,永遠不會小到可以忽略不計。而在冪律分佈裡,極端數據往往意味著極端事件。而極端事件,比如超大型海嘯、超強大地震、席捲全球的金融風暴等,都會給人帶來非常大的損失。
三是冪律分佈完全不可預測。科學家們一直在致力於冪律分佈的研究,但到目前為止,冪律分佈還完全無法預測,所以我們的世界在很多領域就是這麼不公平。比如著名的“沙堆模型”,在平臺上不斷添加沙粒,慢慢形成一個沙堆。隨著沙堆高度的增加,新添加的沙粒會帶動沙堆表面其他沙粒滾落,產生所謂的“沙崩”。
統計沙崩的規模和發生的頻率,科學家發現它服從冪律分佈。這是一個極其簡單的模型實驗。所有物理知識我們都掌握,而且能用計算機跟蹤每一粒沙子的位置,但仍然找不到沙堆崩塌的原因。我們既不知道在什麼條件下,再放一粒沙子就會導致沙崩,也無法預測這粒沙子導致的沙崩規模會有多大。
如果一個局面中有很多極端事件,我們基本上可以猜測它滿足冪律分佈,針對符合冪律分佈的各種事件,平時做好預防重大災難的資源和措施就至關重要,對我們的人生也是一樣。
參考資料:
得到app《劉嘉·概率論22講》《萬維鋼·精英日課3》《卓克·科技參考》《鄭路的社會網絡課》。