首頁>其它>

有人天真的人認為我們的世界在很多領域經常發生極端事件,在一些領域中也許存在這樣特別極端的例子,但是,其實很大一部分領域,極端現象都非常少,就像世界上沒有身高15米的人一樣,因為我們的世界大部分事物服從正態分佈。

1. 正態分佈的三個數學特性

“正態分佈”這個詞,聽上去挺複雜,但它的英文叫normal distribution,直接翻譯過來就是“正常的分佈”“一般的分佈”,意思是其它分佈都是特殊的,只有正態分佈是一般的、正常的。咱們國家臺灣的教科書通常叫它“常態分佈”,從名字上,我們也能感受到它的重要性。

有趣的是,正態分佈不僅非常重要,而且還特別簡單。說起正態分佈曲線,就是一條對稱的倒鐘形曲線,中間很高,兩邊下降,像個鼓起的小山。圖片就長這樣:

在正態分佈的曲線圖裡,橫座標代表隨機變量的取值範圍,越往右,隨機變量的值就越大。縱座標,則代表概率的大小,最底下的概率是0,越往上概率越大。因為這條曲線是左右對稱的,所以中間的最高點,就代表平均值出現的概率最大,數據最多,而兩邊陡峭下降,就意味著越靠近平均值,數據越多,越遠離平均值,數據就越少。正態分佈能給人充分的掌控感,每個案例相差都不會很大,通常翻不了天。

平均值和標準差就都可以用平時的流量數據統計出來。有了平均值和標準差你就可以大致估算各種事件發生的概率:95%的事情都發生在兩個標準差之內,99.7% 的事情發生在三個標準差之內。有個極客說要找個美貌程度在兩個標準差之外的女朋友,那就意味著她要比 97.5%的人都漂亮。就像這個圖:

從上面的例子我們可以知道正態分佈的三個特性:

一是均值就是期望。也就是正態分佈曲線中間最高點的橫座標,不僅代表隨機變量的平均值,而且還等於它的數學期望,平均值也就代表隨機事件的價值。

二是極端值很少。這有兩層含義:一是極端值出現的概率很低,二是極端值對均值的影響很小。也因此,正態分佈是穩定的系統。

性質三:標準差決定胖瘦。前面講過,標準差就是方差的平方根,也能用來描述隨機變量的波動情況。在正態分佈中,標準差越大,數據的波動越劇烈,鐘形曲線就越矮胖,標準差越小,數據越集中,鐘形曲線就越高瘦。

2.決定正態分佈的是中心極限定理

並不是所有隨機事件都滿足正態分佈,想要學會判斷什麼樣的事件滿足正態分佈,需要了解“中心極限定理”。中心極限定理說,如果一個事件滿足下面這些條件,它的分佈就是正態分佈。

① 它是由多個(至少 20 個)隨機變量相加的結果;

②  這眾多的隨機變量是互相“獨立”的,且每個隨機變量的方差都只有有限大;

中心極限定理的表達方式有好幾種,但核心的數學性質只有一條——大量獨立的隨機變量相加,無論各個隨機變量的分佈是怎樣的,它們相加的結果必定會趨向於正態分佈。換句話說,正態分佈是必然產生的。而這個證明源於嚴格的數學推導,是一定正確的。

3.正態分佈是所有分佈的參照系和世界的宿命

正態分佈就像一個標準、一個參照系,服從正態分佈,可以直接用它分析,不服從正態分佈,也可以為人類指明繼續探索的方向。如果一個這個隨機事件不服從正態分佈,那它就一定不滿足正態分佈背後的中心極限定理。而不滿足中心極限定理,我們就能知道,要麼是它的影響因素不夠多,要麼是各種影響因素不相互獨立,要麼是某種影響因素的影響力太大等,就給我們繼續探索指出了思路。

中心極限定理告訴我們,正態分佈普遍存在。比如,影響人身高的因素很多,營養、遺傳、環境、族裔、性別等都有影響,這些因素的綜合效果就是人的身高服從正態分佈。

所有的分佈,不是正態分佈,就是在變成正態分佈的路上。信息論領域發現了“熵最大原理”,就是說,在一個孤立系統中,熵總是在不斷增大。正態分佈就是所有已知均值和方差的分佈中,信息熵最大的一種分佈。

如果熵不斷增長是孤立系統確定的演化方向,那熵的最大化,所以就是孤立系統演化的必然結果。最終任何分佈疊加最終都會形成正態分佈,所以無論是對數分佈還是冪律分佈,無論是指數分佈還是其他任何分佈,只要自身不斷演化,不斷自己疊加自己,最終也一樣會變成正態分佈,好像冥冥中自有定數。

參考資料:

得到app《劉嘉·概率論22講》《萬維鋼·精英日課3》。

8
最新評論
  • 康明斯6bt發動機
  • 「無邊際泳池」突崩塌,新婚女被衝進大海「破頭血流」