統計機率思維，讓資料歌唱？

首頁>Club>乖寶歆2021-04-22 00:22

統計機率思維，讓資料歌唱？

回覆列表

1 # 乖歆寶看劇

在我們的生活中，在空氣中，在世界的各個角落，充斥著各式各樣的資料，然而，這些資料本身，卻是混亂無序的數字大雜燴，想要深刻正確的理解資料背後的含義，就得用到一個強大的科學分支，那就是統計學，有了統計學，我們才能真正地懂得世間萬物的規律，體會浩瀚星宇的奧妙，解讀所謂的“資料洪流”，從而更加深入地理解我們的地球，以至於無限的宇宙。
隨著計算機科學技術的發展，統計學從傳統意義上改變了科學的程序，統計學為我們提供了一種觀察身邊世界的視角，這種視角獨一無二，它可以是我們衡量世界的一個標尺，是判斷我們觀念是否正確的試紙，而且它的力量，遠超大多數人的想象。

事實證明：大量的獨立事件相加，就成為了一種社會現象。

網際網路強大的資訊功能，可以來顯示城市運作的規律，讓每個人理解資料背後的真相，倒逼政府職能就位，監督政府動態，成為有力的社會管理工具。隨著人們對網路的依賴越來越強，我們會留下各種電子痕跡，當我們用統計學去分析這些電子痕跡，能幫助我們理解生活的意義，我們不再被偏見引入歧途，因為統計學為一個理性客觀的世界打開了大門，在這個世界裡，命運掌握在我們自己手中。
1、關於描述統計分析

描述統計學：是對大量資料進行歸納，將多個數據集合在一起的叫資料集，將一系列資料簡化成幾個能代表的幾個數字，以展示事物的整體情況。描述統計學就是用幾個關鍵的數字來描述資料集的整體情況

描述資料集常用的4個指標：平均數、四分位數、標準差、標準分

一、平均數

平均值（μ），就是將所有資料相加再除以資料的個數。

平均數的好處就是可以把一大堆資料簡化成一個數字，雖然每個個體存在差異，但是用一個共同的平均數可以代表整個人群，

平均值的缺點是對異常值表現不明顯

生活中有很多平均數的陷阱，比如工資被平均了（4個農民和馬雲站一起都成了億萬富翁）
眾數（M），是在一堆資料中出現最頻繁的資料，即頻數最大的資料（資料中佔比例最多的那個數），在統計分佈上具有明顯集中趨勢點的數值，代表資料的一般水平（眾數可以不存在或好幾個）。用眾數代表一組資料，可靠性較差。

出現次數最多的數就叫這組資料的眾數。

例如：1，2，3，3，4的眾數是3。

但是，如果有兩個或兩個以上個數出現次數都是最多的，那麼這幾個數都是這組資料的眾數。

例如：1，2，2，3，3，4的眾數是2和3。

還有，如果所有資料出現的次數都一樣，那麼這組資料沒有眾數。

例如：1，2，3，4，5沒有眾數。

二、四分位數

四分位數應用於統計學中的箱線圖繪製，用5個數描述資料的整體分佈狀況（箱線圖），可以整體上描述資料集的分佈狀態，但沒辦法告訴我們資料的波動情況
（一）中位數

中位數，首先按從小到大的順序排列資料，然後計算中間位置：假設n個數，如果n是奇數，則中位數位於中間的數值。，如果n 是偶數，則中位數就是中間兩個數的平均值。

（二）四分位數的演算法

首先所有數值由小到大排列，並分成四等份，處於三個分割點位置的數值就是四分位數，其中將最小的四分位數稱之為下四分位數（Q1），中間的四分位數即為中位數（Q2），最大的四分位數稱之為上四分位數（Q3），

箱型圖，就是將四分位距畫成箱子的形狀，這樣做的目的是讓資料更加直觀並方便的看出資料的的趨勢，圖中我們可以看出資料大部門集中在下四分位的位置部分。

（三）四分位數的應用

1、不同類別資料的比較
2：識別和處理異常值（a.識別出可能的異常值 b.對異常值進行檢查和處理）

識別異常值的方法：Tukey’s tset 方法

最小估計值：Q1-K（Q3-Q1）

最大估計值：Q3+K（Q3-Q1）

K=1.5（中度異常）

K=3（極度異常）

處理異常值的3種辦法

（1）異常值修正

（3）異常值保留

三、標準差

方差，主要用於描述資料分散性的方法，公式如下圖：

標準差（σ西格瑪）是衡量資料相對於平均值的波動大小（即離散程度=變異性），偏離平均值的幅度，公式如下圖

方差和標準差都是用來描述資料的分散性的，其主要目的都是用來計算資料的穩定性，並比較哪個資料的穩定性更好
案例：NBA球員的發揮穩定性、股票風險

標準差值越小，說明資料偏離越穩定

四、標準分

標準分表示某個數字距離平均值多少個標準差。可以透過標準分知道偏離平均值

標準分，是對不同資料集中的數值進行比較的一種方法，而且這些資料集的均值和標準差互不相同，其公式如下：

資料集X1，X2，X3

平均值：u

標準差：σ

標準分Z2=（X2-u）/σ

Z分數是以一批分數的平均數作為參照點，以標準差作為單位表示距離的。它由正負號和絕對數值兩部分組成，正負號說明原始分是大於還是小於平均數，絕對數值說明原始分距離平均分數的遠近程度。一批分數全部轉換成Z分數後，它們的整個分佈形態並沒有發生改變。
2、關於機率

人工智慧時代，用機率思維發現人生機會

機率圖形學習網站（http://www.shuxuele.com/data/index.html#stats），有興趣的朋友請看看這篇文章，對小機率事件的認知——李笑來《就算是“文盲”也千萬別是“險盲”》

機率有什麼用

持續對大機率事件下注，並同時預防那些足以毀掉你生活的風險。

機率知識對我們還有一點啟發，就是“為大機率堅持，為小機率備份”。只要我們選擇有利的大機率事件，持續投入，結果一定比東一榔頭西一棒槌地做事情要好。另外，要為小機率事件做好備份，避免小機率事件對我們造成無法挽回的損失，比如重要檔案要多備份，以免丟失。
賭徒謬論

賭徒謬論：絕大多數賭徒傾向於相信之前的下注結果對當前下注有影響。

獨立事件不受過去事件影響。

相關事件受過去事件影響。

多個獨立事件的機率P（A與B）=P（A）* P（B），比如連續兩次拋硬幣都是正面的機率P=0.5*0.5=0.25.

人工社會財富積累的模型——糖域（告訴你財富的秘密，天機不可洩露）

糖域=社會

糖=資源

圖片中的點，及糖人=社會上的人

因此得出結論：什麼決定我們賺多少錢？

A、天賦異稟 B、出身位置 C、隨機的運氣

啟示：對於沒有太多資源，又不如阿爾法狗強大的普通人，該做什麼呢？做到下面2點：
1.選擇比努力更重要。

這裡的選擇就是我們要想辦法提高自己的條件機率，選擇能改變的出身位置。對於個人而言，應該選擇去正確的地方，在水多的地方挖井，這是一切努力的第一步。切勿以穿越荒漠為榮。

2.在正確的前提下，努力提高自己的能力。

《隨機漫步的傻瓜》書中有一句話是這麼寫的：有一身好本事卻窮困潦倒的人，最後一定會爬上來，而幸運的傻瓜他可能短時間內藉助於生命中某些好運氣，但是長期來看，他的處境會慢慢趨近於運氣並沒有那麼好的傻瓜。

所以想辦法提高自己的能力很重要。

大數定律

如果統計資料足夠大，那麼事物出現的頻率就能無限接近他的期望。

期望：預期值
小數定律：如果統計資料很少，那麼事件表現為各種極端情況，而這些情況都是偶然事件，跟它的期望值一點關係都沒有。比如盲人摸象

期望E（X）=1/6*1元 + 1/6*2元 + 1/6*3元 + 1/6*4元 +1/6*5元 + 1/6*6元=3.5元

前面拋篩子游戲來自於這個網站，當在電腦前面時再開啟該網站，點選圖片中期望的圖形，就可以開始玩遊戲，理解什麼是小數定律，什麼是大數定律。網站地址（長按此處複製）：http://students.brown.edu/seeing-theory/basic-probability/index.html

如何預防風險

風險=不確定性

墨菲定律：凡事只要有可能出錯，就會出錯
預防哪些風險：

1、在資本安全上

原則1：永遠不要押上全部。投資你可支配資產的20%，本質上已經“押上全部”了。

心理學上已經做過研究，當你把總資產的25%拿出去冒險，你將無法對它熟視無睹。

在可能翻倍也可能賠光的投資中，若是你只有60%的勝算，投資你總資產的20%，本質上已經是“押上全部”了。

2、在人身安全上

原則2：為足以毀掉你生活的意外上保險。

優先考慮購買次序為：意外重大疾病、壽險、子女、醫療養老、理財

買重大疾病險，如何買？

（1）買終身

（2）保監會規定的25種重大疾病，或者更多

（3）保額>=50以上
3 你必須知道的，不可錯過的

鄭智化在《中產階級》中有幾句這樣的歌詞:

我的包袱很重　我的肩膀很痛

我扛著面子流浪在人群之中

我的眼光很高　我的力量很小

我在沒有人看見的時候偷偷跌倒

我經歷過，我感同深受，有些人是這樣的，但都想要成功，去改變上述的狀況，但事實上的首先，我們需要認清世界的方向，看懂周邊的道路和情形，究竟應該往哪走，選擇比努力更重要，行動比言語更重要。

查理·芒格是一個完全憑藉智慧取得成功的人。在《窮查理寶典》中他說：首先必須掌握基礎的數學知識，如果不能把數學變成生活的一部分，就是把巨大的優勢拱手送給別人。要學會應用複利原理、排列組合、機率方法和決策樹理論。
所謂機率，指的是一個事件發生的可能性。正如著名的統計學家C.R.Rao所說：

在終極的分析中，一切知識都是歷史

在抽象的意義下，一切科學都是數學；

在理性的世界裡，所有的判斷都是統計學”。

我們的生活伴隨著各種主動的、被動的選擇。選擇就是判斷，理性的判斷就離不開統計與機率。數字可以豐富你的生活，豐富你對世界奧妙的認識。

劇多

統計機率思維，讓資料歌唱？

相關內容