Lary Wasserman 在 《All of Statistics》 的序言裡有說過機率論和統計推斷的區別:
1)The basic problem of statistical inference is the inverse of probability:Given the outcomes, what can we say about the process that generated the data?2)The basic problem that we study in probability is: Given a data generating process, what are the properities of the outcomes?
有一次我“老婆”聽我在講課,講的是《學習統計對你人生的重要意義是什麼?》。講完課後,我給她說,統計機率真的很重要,然後balaba。
她只淡淡的回了我一句,我竟無言對:
雖然我知道你說的很對,但是什麼是統計機率呢?對我有什麼幫助呢?當我長篇大論的解釋給她聽時,她已經不耐煩了:我不是要聽你這些晦澀難懂的名稱,你應該用生活中的例子講我聽,畢竟我是小白。如果你跟我講化妝品什麼牌子好,我倒是能立馬明白。(女人啊)
這句話徹底擊中了我的痛點,想讓沒學過,沒有任何基礎的人明白什麼是統計,什麼是機率,確實不容易。難道沒有辦法了嗎?
直到我反覆查資料,然後根據我的生活經歷,有一天這麼跟她聊的時候,她立馬明白了什麼是統計,什麼是機率。還說要好好學習這個“最賺錢的思維”工具呢。我是怎麼和她聊的呢?
猴子:老婆,我給你講個笑話吧。
老婆:如果不好笑,小心我的無影腳。
猴子:某次生物課考試,有一道題是看動物的腳,猜該動物的名稱,一考生實在是不會做,憤怒的把試卷撕掉就往外走,老師看見了,抓住他大聲說道:“你哪個班的,這麼囂張”。學生把褲腿一提,說道:“你猜啊,你猜啊!”
這個笑話雖然你很早聽過,但是很多人卻沒看懂這個學生絕對是個統計高手。(忽悠,接著忽悠)。
統計就是給你黑盒子裡面裝著貓和狗,只讓你看到他們的腿,然後讓你猜哪個腿是貓的。
你可能會問,這怎麼猜?
在統計裡會總結過去的資料,然後對這些資料進行總結歸納。就像剛才的例子,我們要判斷出哪個腿屬於貓。需要收集所有貓的腿(也就是過去的資料),然後總結這些腿的特徵(總結歸納)。當圖片裡的腿出現時,你可以根據之前的總結歸納來判斷出這腿是不是貓的腿。
當然,你也不會無聊到判斷哪隻腿是貓,哪隻腿是狗的(更多時候我還是喜歡看美女的腿,,竊喜)。舉個更加實際的例子,在醫院會對過去有糖尿病的所有病人進行歸納總結(建立模型),當有一個新的病人入院時,就可以用之前的歸納總結來判斷該病人是否患糖尿病,然後就可以對症下藥了。統計裡常說的“分類”就是這個過程。
所以,統計是對過去資料進行“總結歸納”。
那什麼是機率呢?
機率是用數值來表示事情發生的可能性大小。舉個例子小馬去創業了去找投資人王思聰要錢。王思聰可不是傻X。然後就派猴子我去調查小馬過去的經歷(看他有什麼創業的條件),然後預測他可能成功的機率是多大。經過深入調查我發現小馬他爸是馬雲(給定條件),得出小馬創業機率成功率是99%(預測未來)。
如果我們用貓和狗這個例子來舉例,就是給了你貓和狗的行為特徵(給定條件),然後預測貓和狗明天撕逼的可能性多大。
所以,機率是給定條件,對“資料”進行預測
用簡單的話來總結:統計=回顧過去,進行歸納總結機率=給定條件,對未來進行預測用稍微專業一點的話來總結:統計=樣本(回顧過去的資料)歸納出總體(總結)機率率=總體(給定條件)對樣本進行預測
用“專家”的話來解釋,就是:
Lary Wasserman 在 《All of Statistics》 的序言裡有說過機率論和統計推斷的區別:
1)The basic problem of statistical inference is the inverse of probability:Given the outcomes, what can we say about the process that generated the data?2)The basic problem that we study in probability is: Given a data generating process, what are the properities of the outcomes?