首頁>教育>

資料分析師,無疑是資料時代最耀眼的職業之一,統計學,又是資料分析師必備的基礎知識。

知識點彙總:

集中趨勢(Central Tendency)變異性(Variability) 歸一化(Standardizing) 正態分佈(Normal Distributions)抽樣分佈(Sampling Distributions) 估計(Estimation) 假設檢驗(Hypothesis testing) T檢驗(T-test)

01 集中趨勢(Central Tendency)

1. 眾數

出現頻率最高的數。

2. 中位數

把樣本值排序,分佈在最中間的值樣本總數為奇數時,中位數為第(n+1)/2個值樣本總數為偶數時,中位數是第n/2個,第(n/2)+1個值的平均數

3. 平均數

所有數的總和除以樣本數量。

小結:現在大家接觸最多的概念應該是 平均數,但有時候,平均數會因為某些極值(Outlier)的出現收到很大影響。

舉個小例子,你們班有20人,大家收入差不多,19人都是5000左右,但是有1個同學創業成功了,年入1個億,這時候統計你們班同學收入的“平均數”就是500萬了,這也很好的解釋了,每年各地的平均收入資料出爐,小夥伴們直呼給祖國拖後腿了,那是因為大家收入被平均了,此時,“中位數”更能合理的反映真實的情況。

02 變異性(Variability)

1. 四分位數

上面說到了“中位數”,把樣本分成了2部分,再找個這2部分各自的“中位數”,也就把樣本分為了4個部分,其中1/4處的值記為Q1,2/4處的值記為Q2,3/4處的值記為Q3

2. 四分位距 IQR=Q3-Q1

四分位數

3. 異常值(Outlier)

小於Q1-1.5(IQR)或者大於Q3+1.5(IQR);對於異常值,我們在處理時需要剔除。

4. 方差(Variance)

方差variance

5. 平方偏差(Standard Deviation)

方差的算術平方根

6. 貝塞爾矯正:修正樣本方差

問:為什麼要用貝塞爾矯正?

實際在計算方差時,分母要用n-1,而不是樣本數量n,原因如下

貝塞爾矯正

03 歸一化(Standardizing)

1. 標準分數(Z-score)

一個給定分數 距離 平均數 多少個標準差?

標準分數是一種可以看出某分數在分佈中相對位置的方法。

標準分數能夠真實的反映一個分數距離平均數的相對標準距離。

歸一化standardizing

04 正態分佈(Normal Distributions)

1. 定義

隨機變數X服從一個數學期望為μ,方差為σ⊃2;的正態分佈,記為N(μ,σ⊃2;)

隨機取一個樣本,有68.3%的機率位於距離均值μ有1個標準差σ內

有95.4%的機率位於距離均值μ有2個標準差σ內

有99.7%的機率位於距離均值μ有3個標準差σ內

正態分佈normal distribution

05 抽樣分佈(Sampling Distributions)

1. 中心極限定理(Central Limit Theorem)

設從均值為μ,方差為σ⊃2;的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分佈近似服從均值為μ、方差為σ⊃2;/n的正態分佈

2. 抽樣分佈(Sampling Distributions)

設總體共有N個元素,從中隨機抽取一個容量為n的樣本,在重置抽樣時,共有N·n種抽法,即可以組成N·n不同的樣本,在不重複抽樣時,共有N·n個可能的樣本。每一個樣本都可以計算出一個均值,這些所有可能的抽樣均值形成的分佈就是樣本均值的分佈。

但現實中不可能將所有的樣本都抽取出來,因此,樣本均值的機率分佈實際上是一種理論分佈。數理統計學的相關定理已經證明:在重置抽樣時,樣本均值的方差為總體方差的1/n

例子:48盆MM豆,計算出每盆有幾個藍色的MM豆,48個數據構成了總體樣本。然後隨機選擇五盆,計算五盆中含有藍色MM豆的平均數,然後反覆進行了50次。這就是n為5的樣本均值抽樣。

抽樣分佈sampling distributions

06 估計(Estimation)

1. 誤差界限(Margin of error)

誤差界限margin of error

2. 置信度(Confidence level)

We are some % sure the true population parameter falls within a specific range

我們有百分之多少確信總體中的值落在一個特定範圍內;一般情況下,取95%的置信度就可以。

3. 置信區間(Confidence Interval)

置信區間

07 假設檢驗(Hypothesis testing)

假設檢驗hypothesis testing

1. 問題:什麼是顯著性水平?

顯著性水平是估計總體引數落在某一區間內,可能犯錯誤的機率,也就是Type I Error

A Type II Error is when you fail to reject the null when it is actually false.

假設檢驗-零假設和對立假設

假設檢驗-案例:雞

2. 如何選擇備選檢驗和零假設

一個研究者想證明自己的研究結論是正確的,備擇假設的方向就要與想要證明其正確性的方向一致;同時將研究者想收集證據證明其不正確的假設作為原假設H0

08 T檢驗(T-test)

1. 主要用於樣本含量較小(例如n<30),總體標準差σ未知的正態分佈

流程如下:

t檢驗

是用t分佈理論來推論差異發生的機率,從而比較兩個平均數的差異是否顯著;一般檢驗水準α取0.05即可;計算檢驗統計量的方法根據樣本形式不同。

2. 獨立樣本T檢驗

t檢驗

問題:為什麼T檢驗查表時候要n-1?樣本均值替代總體均值損失了一個自由度

3. 配對樣本t檢驗

分析人的早晨和晚上的身高是否不同,於是找來一撥人測他們早上和晚上的身高,這裡每個人就有兩個值,這裡出現了配對

t檢驗-配對樣本

樣本誤差(Standard Error)

t檢驗-樣本誤差

t檢驗-樣本誤差2

4. Pooled variance 合併方差

當樣本平均數不一樣,但實際上認為他們的方差是一樣的時候,需要合併方差不要被公式嚇到,他的本質是兩個樣本方差加權平均。

t檢驗-合併方差1

t檢驗-合併方差2

5. Cohen’s d

效應量(effect size):提示組間真正的差異佔統計學差異的比例,值越大,組間差異越可靠。

t檢驗-cohen's d

t檢驗-cohen's d2

薦:

【中國風動漫】除了《哪吒》,這些良心國產動畫也應該被更多人知道!

宣告

11
最新評論
  • 「完整」2022年中級註冊安全工程師《化工安全實務》真題解析
  • 寒門再難出貴子,拼爹時代,窮人孩子翻身方法其實就這一個