首頁>Club>
8
回覆列表
  • 1 # 穿插游擊隊

    我們從整體上理解了機率分佈,知道了機率分佈模型是對現實規律的抽象總結。

    機率分佈模型有幾十種,從哪一個講起呢?

    你去問任何一個機率老師,得到的答案肯定只有一個——正態分佈。原因很簡單,正態分佈是機率分佈中最重要的分佈。在數學家眼裡,它是遠遠高於其他分佈的。

    這一講,我們就先了解一下正態分佈的數學性質和應用;下一講,再看看正態分佈到底有多重要。

    正態分佈的發現

    要講正態分佈,我們得從天文學史上的一樁公案說起。

    1801年初,一個神秘的天體出現在天文學家的視野中,幾周之後又神秘消失。它是什麼?又去了哪兒?沒人知道。正在所有人都束手無策之時,“數學王子”高斯站了出來,他用一支筆計算出了這個天體的執行軌道。果然,在高斯指定的位置,人們重新發現了它。這就是人類發現的第一顆矮行星——穀神星。

    你可能好奇,高斯是怎麼計算出這顆天體的執行軌道的呢?很簡單,他在計算的過程中使用了正態分佈。

    沒有正態分佈,人類束手無策;有了正態分佈,竟然能精準計算一顆遙遠的天體的位置。你說正態分佈厲害不厲害?

    而且從此以後,正態分佈就席捲一切,不僅推動了數學、統計學、物理學、工程學等眾多領域的發展,而且還有很多其他的分佈,比如說對數正態分佈、T分佈、F分佈都是直接由正態分佈推匯出來的。

    “正態分佈”這個詞,聽上去挺複雜的,但它的英文表達就簡單多了,叫normal distribution,直接翻譯過來就是“正常的分佈”“一般的分佈”。咱們國家臺灣的教科書通常叫它“常態分佈”。其它分佈都是特殊的,只有正態分佈是一般的、正常的。從名字上,我們也能感受到它的重要性。

    作為數學史上數一數二的人物,高斯的偉大發現不勝列舉。甚至有人說,在高斯所在的那個時代,幾乎所有偉大的數學成就都是高斯最先發現的。所以,高斯並不覺得自己發現正態分佈是多了不起的事情,他的墓誌銘上,刻的也是他的正十七邊形,而沒有提正態分佈的事。

    但後人不這麼認為,德國為了紀念高斯,就在10馬克的鈔票上印上了高斯的頭像,而在頭像旁邊的,就是正態分佈的鐘形曲線。

    正態分佈的三個數學特性

    有趣的是,正態分佈不僅非常重要,而且還特別簡單。

    說起正態分佈曲線,你肯定見到過——一條對稱的倒鐘形曲線,中間很高,兩邊下降,像個鼓起的小山包。

    這條曲線究竟是什麼意思呢?下面我帶著你簡單瞭解一下,以後你就能看懂它了。

    在正態分佈的曲線圖裡,橫座標代表隨機變數的取值範圍,越往右,隨機變數的值就越大;縱座標,則代表機率的大小,最底下的機率是0,越往上機率越大。這樣,從曲線上隨便找一點,確定它的橫座標、縱座標,我們就知道了這個值出現的機率是多少。

    因為這條曲線是左右對稱的,所以中間的最高點,就代表平均值出現的機率最大,資料最多;而兩邊陡峭下降,就意味著越靠近平均值,資料越多;越遠離平均值,資料就越少。

    當然,我們不能停留在這種粗糙的描述上,要理解正態分佈,必須瞭解它的三個數學性質。

    性質一:均值就是期望。

    也就是說,正態分佈曲線中間最高點的橫座標,不僅代表隨機變數的平均值,而且還等於它的數學期望。這是經過數學證明的,你不用太糾結。在機率論中,正態分佈的均值和期望就是一個意思,是一件事兒的兩種表達。

    這就很有意思了。我們前面講過,數學期望代表長期價值,而現在平均值又是數學期望。也就是說,在正態分佈中,平均值就代表隨機事件的價值。

    為什麼我們會用高考的平均成績,衡量一所高中的教學質量?為什麼我們會用平均收益率,衡量一家基金公司的好壞?原因很簡單,高考成績和基金公司的收益,是服從正態分佈的。而在正態分佈中,平均值就代表這個隨機事件的價值。

    但提醒你一下,在正態分佈裡,平均值才具有這樣的意義。如果不是正態分佈,均值可能就沒啥意義了。比如說地震,誰也沒聽說過平均強度和平均損失這樣的說法吧?

    性質二:極端值很少。

    還記得正態分佈的圖嗎?越靠近平均值,這條曲線越高,出現的機率越大;越遠離平均值,這條曲線就越低,出現的機率就越小。這就說明,正態分佈的大多數資料都集中在平均值附近,極端值很少。

    “極端值很少”這句話,有兩層含義:一是極端值出現的機率很低,二是極端值對均值的影響很小。也因此,正態分佈是非常穩定的。拿人的身高來說吧,它大體服從正態分佈,所以即使姚明加入我們課程,我們的平均身高也不會有太大變化。

    當然,如果不服從正態分佈,均值往往就很不穩定。

    性質三:標準差決定胖瘦。

    如果留心你會發現,同樣是正態分佈圖,有的曲線要矮胖一些,有的要高瘦一點,這是為什麼呢?

    其實就是因為標準差不同。前面講過,標準差就是方差的平方根,也能用來描述隨機變數的波動情況。在正態分佈中,標準差越大,資料的波動越劇烈,鐘形曲線就越矮胖;標準差越小,資料越集中,鐘形曲線就越高瘦。

    為什麼剛才說正態分佈簡單?就是因為在正態分佈中,平均值等於期望,決定這條曲線的最高點;方差決定胖瘦,決定曲線的彎曲度。簡單兩個資料,就確定了這條曲線的形狀。你說簡單不簡單?

    正態分佈的現實應用

    日常生活中,正態分佈的應用隨處可見。

    當你開啟電腦時,某產品會告訴你,“你的開機時間23秒,打敗了全國97%的使用者”。“23秒”你可能沒概念,但“打敗了全國97%的使用者”一下子就讓會你明白快還是慢。不過你有沒有想過,這個97%是怎麼來的?是要把全國每臺電腦的開機時間都收集起來,做個排序嗎?這太複雜了吧?

    其實不是這樣的。他們只是構建了一個正態分佈的模型而已。

    我們知道,大部分電腦的開機速度都差不多,只有小部分快一點或慢一點,可以認為它服從正態分佈。而剛才說了,正態分佈很簡單,只要均值和標準差兩個資料就能完全確定。所以,只要隨機抽取一部分使用者的開機資料,算出均值和標準差,就可以確定一條正態分佈曲線。

    而在正態分佈中,一個標準差覆蓋68.26%的資料,兩個標準差覆蓋95.44%的資料……都是一一對應、完全確定的。

    有了這層關係,當你的電腦開機的時候,它只需要比較你的開機時間和均值的差距,就能知道你距離均值多少個標準差,也就知道你的排名了。

    正態分佈,為我們提供了一個估算個體在整體中位置的便捷方法。像智商、身高、考試成績,只要服從正態分佈,我們就都能這樣快速得到答案。

    一個正態分佈可以分析,不同的正態分佈曲線能比較嗎?

    也能的。

    第一,只有均值不同,能比較好壞。

    比如兩條生產線製造的產品,標準差一致,怎麼比較呢?當然是平均合格率越高,品控做得越好。前面說了,正態分佈裡均值等於期望,就代表長期價值。

    第二,只有標準差不同,能比較波動。

    最典型的就是男女智商了。兩條曲線在均值上相似,但是男性的智商曲線要矮胖一些,女性的高瘦一點。換句話說,均值相同,標準差不同。這說明什麼呢?

    前面說過,標準差代表波動程度,代表極端資料出現的機率。所以這就是說,從整體上看,男女智商沒有高低之分,男性並不比女性更聰明;但男性的智商波動更大——在智商超群的人中間,男性的數量要多於女性;當然,智商堪憂的人中間,男性也同樣更多。

    第三,標準差和均值都不同,能比較專業和業餘。

    比如個人的射擊成績,都是在平均成績上下波動,基本服從正態分佈。

    如果我和射擊冠軍許海峰比賽,結果你能想象——我的成績肯定變化極大,有時候蒙中10環,有時候脫靶,大多數可能都是3、4環;而許海峰肯定特別穩定,基本都是10環。均值上,他更高,成績更好;標準差上,他更小,成績更穩定。這就說明,許海峰比我專業得多。

    其他人總是用“刻意練習”“精準”等來評價專業和業餘,但在數學家看來,這些詞都太模糊。真正精確的標準只有兩個——均值和標準差。專業就是均值更高,標準差更小,業餘恰恰相反。

  • 中秋節和大豐收的關聯?
  • 30多歲的女性,適合用什麼樣的護膚品?