在我們的生活中,在空氣中,在世界的各個角落,充斥著各式各樣的資料,然而,這些資料本身,卻是混亂無序的數字大雜燴,想要深刻正確的理解資料背後的含義,就得用到一個強大的科學分支,那就是統計學,有了統計學,我們才能真正地懂得世間萬物的規律,體會浩瀚星宇的奧妙,解讀所謂的“資料洪流”,從而更加深入地理解我們的地球,以至於無限的宇宙。
隨著計算機科學技術的發展,統計學從傳統意義上改變了科學的程序,統計學為我們提供了一種觀察身邊世界的視角,這種視角獨一無二,它可以是我們衡量世界的一個標尺,是判斷我們觀念是否正確的試紙,而且它的力量,遠超大多數人的想象。
事實證明:大量的獨立事件相加,就成為了一種社會現象。
網際網路強大的資訊功能,可以來顯示城市運作的規律,讓每個人理解資料背後的真相,倒逼政府職能就位,監督政府動態,成為有力的社會管理工具。隨著人們對網路的依賴越來越強,我們會留下各種電子痕跡,當我們用統計學去分析這些電子痕跡,能幫助我們理解生活的意義,我們不再被偏見引入歧途,因為統計學為一個理性客觀的世界打開了大門,在這個世界裡,命運掌握在我們自己手中。
1、關於描述統計分析
描述統計學:是對大量資料進行歸納,將多個數據集合在一起的叫資料集,將一系列資料簡化成幾個能代表的幾個數字,以展示事物的整體情況。描述統計學就是用幾個關鍵的數字來描述資料集的整體情況
描述資料集常用的4個指標:平均數、四分位數、標準差、標準分
一、平均數
平均值(μ),就是將所有資料相加再除以資料的個數。
平均數的好處就是可以把一大堆資料簡化成一個數字,雖然每個個體存在差異,但是用一個共同的平均數可以代表整個人群,
平均值的缺點是對異常值表現不明顯
生活中有很多平均數的陷阱,比如工資被平均了(4個農民和馬雲站一起都成了億萬富翁)
眾數(M),是在一堆資料中出現最頻繁的資料,即頻數最大的資料(資料中佔比例最多的那個數),在統計分佈上具有明顯集中趨勢點的數值,代表資料的一般水平(眾數可以不存在或好幾個)。用眾數代表一組資料,可靠性較差。
出現次數最多的數就叫這組資料的眾數。
例如:1,2,3,3,4的眾數是3。
但是,如果有兩個或兩個以上個數出現次數都是最多的,那麼這幾個數都是這組資料的眾數。
例如:1,2,2,3,3,4的眾數是2和3。
還有,如果所有資料出現的次數都一樣,那麼這組資料沒有眾數。
例如:1,2,3,4,5沒有眾數。
二、四分位數
四分位數應用於統計學中的箱線圖繪製,用5個數描述資料的整體分佈狀況(箱線圖),可以整體上描述資料集的分佈狀態,但沒辦法告訴我們資料的波動情況
(一)中位數
中位數,首先按從小到大的順序排列資料,然後計算中間位置:假設n個數,如果n是奇數,則中位數位於中間的數值。,如果n 是偶數,則中位數就是中間兩個數的平均值。
(二)四分位數的演算法
首先所有數值由小到大排列,並分成四等份,處於三個分割點位置的數值就是四分位數,其中將最小的四分位數稱之為下四分位數(Q1),中間的四分位數即為中位數(Q2),最大的四分位數稱之為上四分位數(Q3),
箱型圖,就是將四分位距畫成箱子的形狀,這樣做的目的是讓資料更加直觀並方便的看出資料的的趨勢,圖中我們可以看出資料大部門集中在下四分位的位置部分。
(三)四分位數的應用
1、不同類別資料的比較
2:識別和處理異常值(a.識別出可能的異常值 b.對異常值進行檢查和處理)
識別異常值的方法:Tukey’s tset 方法
最小估計值:Q1-K(Q3-Q1)
最大估計值:Q3+K(Q3-Q1)
K=1.5(中度異常)
K=3(極度異常)
處理異常值的3種辦法
(1)異常值修正
(3)異常值保留
三、標準差
方差,主要用於描述資料分散性的方法,公式如下圖:
標準差(σ西格瑪)是衡量資料相對於平均值的波動大小(即離散程度=變異性),偏離平均值的幅度,公式如下圖
方差和標準差都是用來描述資料的分散性的,其主要目的都是用來計算資料的穩定性,並比較哪個資料的穩定性更好
案例:NBA球員的發揮穩定性、股票風險
標準差值越小,說明資料偏離越穩定
四、標準分
標準分表示某個數字距離平均值多少個標準差。可以透過標準分知道偏離平均值
標準分,是對不同資料集中的數值進行比較的一種方法,而且這些資料集的均值和標準差互不相同,其公式如下:
資料集X1,X2,X3
平均值:u
標準差:σ
標準分Z2=(X2-u)/σ
Z分數是以一批分數的平均數作為參照點,以標準差作為單位表示距離的。它由正負號和絕 對數值兩部分組成,正負號說明原始分是大於還是小於平均數,絕對數值說明原始分距離平 均分數的遠近程度。一批分數全部轉換成Z分數後,它們的整個分佈形態並沒有發生改變。
2、關於機率
人工智慧時代,用機率思維發現人生機會
機率圖形學習網站(http://www.shuxuele.com/data/index.html#stats),有興趣的朋友請看看這篇文章,對小機率事件的認知——李笑來《就算是“文盲”也千萬別是“險盲”》
機率有什麼用
持續對大機率事件下注,並同時預防那些足以毀掉你生活的風險。
機率知識對我們還有一點啟發,就是“為大機率堅持,為小機率備份”。只要我們選擇有利的大機率事件,持續投入,結果一定比東一榔頭西一棒槌地做事情要好。另外,要為小機率事件做好備份,避免小機率事件對我們造成無法挽回的損失,比如重要檔案要多備份,以免丟失。
賭徒謬論
賭徒謬論:絕大多數賭徒傾向於相信之前的下注結果對當前下注有影響。
獨立事件不受過去事件影響。
相關事件受過去事件影響。
多個獨立事件的機率P(A與B)=P(A)* P(B),比如連續兩次拋硬幣都是正面的機率P=0.5*0.5=0.25.
人工社會財富積累的模型——糖域(告訴你財富的秘密,天機不可洩露)
糖域=社會
糖=資源
圖片中的點,及糖人=社會上的人
因此得出結論:什麼決定我們賺多少錢?
A、天賦異稟 B、出身位置 C、隨機的運氣
啟示:對於沒有太多資源,又不如阿爾法狗強大的普通人,該做什麼呢?做到下面2點:
1.選擇比努力更重要。
這裡的選擇就是我們要想辦法提高自己的條件機率,選擇能改變的出身位置。對於個人而言,應該選擇去正確的地方,在水多的地方挖井,這是一切努力的第一步。切勿以穿越荒漠為榮。
2.在正確的前提下,努力提高自己的能力。
《隨機漫步的傻瓜》書中有一句話是這麼寫的: 有一身好本事卻窮困潦倒的人,最後一定會爬上來,而幸運的傻瓜他可能短時間內藉助於生命中某些好運氣,但是長期來看,他的處境會慢慢趨近於運氣並沒有那麼好的傻瓜。
所以想辦法提高自己的能力很重要。
大數定律
如果統計資料足夠大,那麼事物出現的頻率就能無限接近他的期望。
期望:預期值
小數定律:如果統計資料很少,那麼事件表現為各種極端情況,而這些情況都是偶然事件,跟它的期望值一點關係都沒有。比如盲人摸象
期望E(X)=1/6*1元 + 1/6*2元 + 1/6*3元 + 1/6*4元 +1/6*5元 + 1/6*6元=3.5元
前面拋篩子游戲來自於這個網站,當在電腦前面時再開啟該網站,點選圖片中期望的圖形,就可以開始玩遊戲,理解什麼是小數定律,什麼是大數定律。網站地址(長按此處複製):http://students.brown.edu/seeing-theory/basic-probability/index.html
如何預防風險
風險=不確定性
墨菲定律:凡事只要有可能出錯,就會出錯
預防哪些風險:
1、在資本安全上
原則1:永遠不要押上全部。投資你可支配資產的20%,本質上已經“押上全部”了。
心理學上已經做過研究,當你把總資產的25%拿出去冒險,你將無法對它熟視無睹。
在可能翻倍也可能賠光的投資中,若是你只有60%的勝算,投資你總資產的20%,本質上已經是“押上全部”了。
2、在人身安全上
原則2:為足以毀掉你生活的意外上保險。
優先考慮購買次序為:意外重大疾病、壽險、子女、醫療養老、理財
買重大疾病險,如何買?
(1) 買終身
(2) 保監會規定的25種重大疾病,或者更多
(3) 保額>=50以上
3 你必須知道的,不可錯過的
鄭智化在《中產階級》中有幾句這樣的歌詞:
我的包袱很重 我的肩膀很痛
我扛著面子流浪在人群之中
我的眼光很高 我的力量很小
我在沒有人看見的時候偷偷跌倒
我經歷過,我感同深受,有些人是這樣的,但都想要成功,去改變上述的狀況,但事實上的首先,我們需要認清世界的方向,看懂周邊的道路和情形,究竟應該往哪走,選擇比努力更重要,行動比言語更重要。
查理·芒格是一個完全憑藉智慧取得成功的人。在《窮查理寶典》中他說:首先必須掌握基礎的數學知識,如果不能把數學變成生活的一部分,就是把巨大的優勢拱手送給別人。要學會應用複利原理、排列組合、機率方法和決策樹理論。
所謂機率,指的是一個事件發生的可能性。正如著名的統計學家C.R.Rao所說:
在終極的分析中,一切知識都是歷史
在抽象的意義下,一切科學都是數學;
在理性的世界裡,所有的判斷都是統計學”。
我們的生活伴隨著各種主動的、被動的選擇。選擇就是判斷,理性的判斷就離不開統計與機率。數字可以豐富你的生活,豐富你對世界奧妙的認識。
在我們的生活中,在空氣中,在世界的各個角落,充斥著各式各樣的資料,然而,這些資料本身,卻是混亂無序的數字大雜燴,想要深刻正確的理解資料背後的含義,就得用到一個強大的科學分支,那就是統計學,有了統計學,我們才能真正地懂得世間萬物的規律,體會浩瀚星宇的奧妙,解讀所謂的“資料洪流”,從而更加深入地理解我們的地球,以至於無限的宇宙。
隨著計算機科學技術的發展,統計學從傳統意義上改變了科學的程序,統計學為我們提供了一種觀察身邊世界的視角,這種視角獨一無二,它可以是我們衡量世界的一個標尺,是判斷我們觀念是否正確的試紙,而且它的力量,遠超大多數人的想象。
事實證明:大量的獨立事件相加,就成為了一種社會現象。
網際網路強大的資訊功能,可以來顯示城市運作的規律,讓每個人理解資料背後的真相,倒逼政府職能就位,監督政府動態,成為有力的社會管理工具。隨著人們對網路的依賴越來越強,我們會留下各種電子痕跡,當我們用統計學去分析這些電子痕跡,能幫助我們理解生活的意義,我們不再被偏見引入歧途,因為統計學為一個理性客觀的世界打開了大門,在這個世界裡,命運掌握在我們自己手中。
1、關於描述統計分析
描述統計學:是對大量資料進行歸納,將多個數據集合在一起的叫資料集,將一系列資料簡化成幾個能代表的幾個數字,以展示事物的整體情況。描述統計學就是用幾個關鍵的數字來描述資料集的整體情況
描述資料集常用的4個指標:平均數、四分位數、標準差、標準分
一、平均數
平均值(μ),就是將所有資料相加再除以資料的個數。
平均數的好處就是可以把一大堆資料簡化成一個數字,雖然每個個體存在差異,但是用一個共同的平均數可以代表整個人群,
平均值的缺點是對異常值表現不明顯
生活中有很多平均數的陷阱,比如工資被平均了(4個農民和馬雲站一起都成了億萬富翁)
眾數(M),是在一堆資料中出現最頻繁的資料,即頻數最大的資料(資料中佔比例最多的那個數),在統計分佈上具有明顯集中趨勢點的數值,代表資料的一般水平(眾數可以不存在或好幾個)。用眾數代表一組資料,可靠性較差。
出現次數最多的數就叫這組資料的眾數。
例如:1,2,3,3,4的眾數是3。
但是,如果有兩個或兩個以上個數出現次數都是最多的,那麼這幾個數都是這組資料的眾數。
例如:1,2,2,3,3,4的眾數是2和3。
還有,如果所有資料出現的次數都一樣,那麼這組資料沒有眾數。
例如:1,2,3,4,5沒有眾數。
二、四分位數
四分位數應用於統計學中的箱線圖繪製,用5個數描述資料的整體分佈狀況(箱線圖),可以整體上描述資料集的分佈狀態,但沒辦法告訴我們資料的波動情況
(一)中位數
中位數,首先按從小到大的順序排列資料,然後計算中間位置:假設n個數,如果n是奇數,則中位數位於中間的數值。,如果n 是偶數,則中位數就是中間兩個數的平均值。
(二)四分位數的演算法
首先所有數值由小到大排列,並分成四等份,處於三個分割點位置的數值就是四分位數,其中將最小的四分位數稱之為下四分位數(Q1),中間的四分位數即為中位數(Q2),最大的四分位數稱之為上四分位數(Q3),
箱型圖,就是將四分位距畫成箱子的形狀,這樣做的目的是讓資料更加直觀並方便的看出資料的的趨勢,圖中我們可以看出資料大部門集中在下四分位的位置部分。
(三)四分位數的應用
1、不同類別資料的比較
2:識別和處理異常值(a.識別出可能的異常值 b.對異常值進行檢查和處理)
識別異常值的方法:Tukey’s tset 方法
最小估計值:Q1-K(Q3-Q1)
最大估計值:Q3+K(Q3-Q1)
K=1.5(中度異常)
K=3(極度異常)
處理異常值的3種辦法
(1)異常值修正
(3)異常值保留
三、標準差
方差,主要用於描述資料分散性的方法,公式如下圖:
標準差(σ西格瑪)是衡量資料相對於平均值的波動大小(即離散程度=變異性),偏離平均值的幅度,公式如下圖
方差和標準差都是用來描述資料的分散性的,其主要目的都是用來計算資料的穩定性,並比較哪個資料的穩定性更好
案例:NBA球員的發揮穩定性、股票風險
標準差值越小,說明資料偏離越穩定
四、標準分
標準分表示某個數字距離平均值多少個標準差。可以透過標準分知道偏離平均值
標準分,是對不同資料集中的數值進行比較的一種方法,而且這些資料集的均值和標準差互不相同,其公式如下:
資料集X1,X2,X3
平均值:u
標準差:σ
標準分Z2=(X2-u)/σ
Z分數是以一批分數的平均數作為參照點,以標準差作為單位表示距離的。它由正負號和絕 對數值兩部分組成,正負號說明原始分是大於還是小於平均數,絕對數值說明原始分距離平 均分數的遠近程度。一批分數全部轉換成Z分數後,它們的整個分佈形態並沒有發生改變。
2、關於機率
人工智慧時代,用機率思維發現人生機會
機率圖形學習網站(http://www.shuxuele.com/data/index.html#stats),有興趣的朋友請看看這篇文章,對小機率事件的認知——李笑來《就算是“文盲”也千萬別是“險盲”》
機率有什麼用
持續對大機率事件下注,並同時預防那些足以毀掉你生活的風險。
機率知識對我們還有一點啟發,就是“為大機率堅持,為小機率備份”。只要我們選擇有利的大機率事件,持續投入,結果一定比東一榔頭西一棒槌地做事情要好。另外,要為小機率事件做好備份,避免小機率事件對我們造成無法挽回的損失,比如重要檔案要多備份,以免丟失。
賭徒謬論
賭徒謬論:絕大多數賭徒傾向於相信之前的下注結果對當前下注有影響。
獨立事件不受過去事件影響。
相關事件受過去事件影響。
多個獨立事件的機率P(A與B)=P(A)* P(B),比如連續兩次拋硬幣都是正面的機率P=0.5*0.5=0.25.
人工社會財富積累的模型——糖域(告訴你財富的秘密,天機不可洩露)
糖域=社會
糖=資源
圖片中的點,及糖人=社會上的人
因此得出結論:什麼決定我們賺多少錢?
A、天賦異稟 B、出身位置 C、隨機的運氣
啟示:對於沒有太多資源,又不如阿爾法狗強大的普通人,該做什麼呢?做到下面2點:
1.選擇比努力更重要。
這裡的選擇就是我們要想辦法提高自己的條件機率,選擇能改變的出身位置。對於個人而言,應該選擇去正確的地方,在水多的地方挖井,這是一切努力的第一步。切勿以穿越荒漠為榮。
2.在正確的前提下,努力提高自己的能力。
《隨機漫步的傻瓜》書中有一句話是這麼寫的: 有一身好本事卻窮困潦倒的人,最後一定會爬上來,而幸運的傻瓜他可能短時間內藉助於生命中某些好運氣,但是長期來看,他的處境會慢慢趨近於運氣並沒有那麼好的傻瓜。
所以想辦法提高自己的能力很重要。
大數定律
如果統計資料足夠大,那麼事物出現的頻率就能無限接近他的期望。
期望:預期值
小數定律:如果統計資料很少,那麼事件表現為各種極端情況,而這些情況都是偶然事件,跟它的期望值一點關係都沒有。比如盲人摸象
期望E(X)=1/6*1元 + 1/6*2元 + 1/6*3元 + 1/6*4元 +1/6*5元 + 1/6*6元=3.5元
前面拋篩子游戲來自於這個網站,當在電腦前面時再開啟該網站,點選圖片中期望的圖形,就可以開始玩遊戲,理解什麼是小數定律,什麼是大數定律。網站地址(長按此處複製):http://students.brown.edu/seeing-theory/basic-probability/index.html
如何預防風險
風險=不確定性
墨菲定律:凡事只要有可能出錯,就會出錯
預防哪些風險:
1、在資本安全上
原則1:永遠不要押上全部。投資你可支配資產的20%,本質上已經“押上全部”了。
心理學上已經做過研究,當你把總資產的25%拿出去冒險,你將無法對它熟視無睹。
在可能翻倍也可能賠光的投資中,若是你只有60%的勝算,投資你總資產的20%,本質上已經是“押上全部”了。
2、在人身安全上
原則2:為足以毀掉你生活的意外上保險。
優先考慮購買次序為:意外重大疾病、壽險、子女、醫療養老、理財
買重大疾病險,如何買?
(1) 買終身
(2) 保監會規定的25種重大疾病,或者更多
(3) 保額>=50以上
3 你必須知道的,不可錯過的
鄭智化在《中產階級》中有幾句這樣的歌詞:
我的包袱很重 我的肩膀很痛
我扛著面子流浪在人群之中
我的眼光很高 我的力量很小
我在沒有人看見的時候偷偷跌倒
我經歷過,我感同深受,有些人是這樣的,但都想要成功,去改變上述的狀況,但事實上的首先,我們需要認清世界的方向,看懂周邊的道路和情形,究竟應該往哪走,選擇比努力更重要,行動比言語更重要。
查理·芒格是一個完全憑藉智慧取得成功的人。在《窮查理寶典》中他說:首先必須掌握基礎的數學知識,如果不能把數學變成生活的一部分,就是把巨大的優勢拱手送給別人。要學會應用複利原理、排列組合、機率方法和決策樹理論。
所謂機率,指的是一個事件發生的可能性。正如著名的統計學家C.R.Rao所說:
在終極的分析中,一切知識都是歷史
在抽象的意義下,一切科學都是數學;
在理性的世界裡,所有的判斷都是統計學”。
我們的生活伴隨著各種主動的、被動的選擇。選擇就是判斷,理性的判斷就離不開統計與機率。數字可以豐富你的生活,豐富你對世界奧妙的認識。