熟悉每個希臘字母在統計資料中所代表的含義。
希臘字母是現代數學的重要組成部分,統計數字當然沒有什麼不同。作為統計學家,解密統計公式的能力非常重要,而不能這樣做則是一個很大的障礙。問題在於,剛進入統計學的新生可能會看到這些符號並思考
"在我看來就像希臘人!"
儘管它們在技術上是正確的,但由於這些公式通常包含非常字面意義上的希臘語,對於初學者來說,掌握這些符號並熟悉其含義仍然很重要。甚至那些在類似定量領域有經驗但沒有進行統計分析的人也可能會遇到麻煩,因為字母可能意味著完全不同的交易。此外,將這些符號拖入Python可能很難推斷。因此,在此不加延遲,以下是統計希臘字母!
人口與樣本為了理解一系列稱為"總體引數"的希臘符號,我們需要熟悉總體和樣本之間的差異。顧名思義,總體是一組觀察值,而樣本只是這些觀察值的一小部分。在Python中,我們可以使用random.sample()獲得樣本。
import random as randour_data = [5, 10, 15, 20]length_of_sample = 2 # <- Also known as nsamp = random.sample(our_data, length_of_sample)
儘管我們可以使用random.sample()從總體中獲取隨機樣本,但是樣本不一定是隨機的。這很重要,因為它是執行T檢驗的基礎。
import random as randour_data = [5, 10, 15, 20]n = 2 # <- Also known as nsamp = random.sample(our_data, length_of_sample)n = len(samp)N = len(our_data)
意思
至於平均值,人口平均值用希臘字母μ或" mu"表示。樣本的均值用x̅或" x-bar"表示。我們可以使用NumPy在Python中計算這些值,也可以將列表的總和除以該列表中的觀察數。
import numpy as npx̅ = np.mean(samp)∑B = sum(our_data)μ = ∑B / N
中位數資料的中位數有點複雜。可以用x̃或" x波浪號"表示。也可以用大寫M或Med表示。中位數的符號通常不是總體或特定於樣本的。在Python中,我們將再次使用Numpy來計算中位數:
x̃ = np.median(sample)
標準偏差
總體的標準偏差可以使用σ或" sigma"表示。請注意,這是小寫的sigma,而不是大寫的sigma-這很重要,因為它們表示不同的含義。
相關係數樣本的相關係數由小寫字母r表示。另一方面,總體的相關係數用ρ或" rho"表示。有許多不同的方法來計算相關係數,但最流行的是Pearson相關。這次,我們將使用Scipy.stats查詢皮爾遜相關係數:
import scipy.stats as scsr = scs.pearsonr(our_data)ρ = scs.pearsonr(sample)
如果您想學習如何使用Pearson相關性從頭開始計算相關係數,我寫了一篇文章,其中我在R中精確地做到了。與此同時,我還計算了r²並將其用於對線性迴歸模型進行評分。幸運的是,R和r的組合也產生了一個非常有趣的名字:
比例樣本的比例用p̂或" P-帽子"表示。人口用簡單的p表示。確保不要像在rho中那樣將p與ρ混淆!要在Python中進行計算,實際上不需要匯入任何東西,因為它是透過將總體的長度除以樣本的長度來計算的,反之亦然:
p̂ = N / np = n / N
通常,只要提到比例,我們就是在談論樣本比例。
字母表示α(Alpha)Alpha用於表示假設檢驗的重要性。換句話說,它表示發生Type-1錯誤的可能性。結果,您可以透過執行以下操作來計算置信度
1 - α = confidence
Alpha是可以根據您希望獲得的置信度而變化的數字。通常可以將alpha值假定為0.05。這是為什麼?因為通常在統計資料中我們會得出0.95的置信度,即95%的置信度。1減去.05為0.95。此數字通常不計算,而是作為引數給出。
β(β)Beta用於表示假設檢驗中II型錯誤的重要性。像alpha一樣,beta通常作為引數提供,並且是可以用來最佳化其統計推斷的基本值。負beta是我們所謂的測試能力。如果您想了解有關功率的更多資訊,我寫了一篇文章,從頭開始建立了功率日誌演算法。
ν(nu)Nu用於表示統計資料的自由度。我們可以透過首先獲取X和Y的標準偏差,然後將它們插入以下公式來計算Python中的自由度:
def degreesOfFreedom(X, Y): s1 = (stdev(X)**2) s2 = (stdev(Y)**2) df = (s1 / len(X) + s2 / len(Y))**2 / ((s1 / len(X))**2 / (len(X) - 1) + (s2 / len(Y))**2 / len(Y) - 1) return(df)
σx̅(Sigma-X-Bar)Sigma-X-Bar用於表示平均值的標準誤差。我們可以再次使用Scipy.stats在Python中進行計算:
scs.sem(samp)
σp̂(Sigma-P-帽子)
由於Sigma-X-Bar是平均值的標準誤差,因此Sigma-P-Hat是比例的標準誤差。我們可以透過簡單地對標準錯誤公式進行一次更改就可以在Python中進行計算:
# Sigma X BarSEx = s / sqrt(n)SEp = sqrt(p(1 - p) / n)
在上面的示例中,s當然代表樣品標準偏差的估計值,類似於sigma。
∑(Sigma(大寫))大寫的sigma用於界定給定組的總和。只需使用Python的標準sum()函式即可計算得出。
∑x = sum(x)
是的,就是這麼簡單。
χ²(Chi-Squared)給定陣列x的卡方分佈。卡方分佈是多項實驗和列聯表的分佈。我們可以再次使用Scipy.stats中的此統計資訊:
χ² = scs.chi2(our_data)
結論
這些是統計中通常使用的所有希臘字母。儘管基本統計資料中有一些值得注意的例外,例如頻率(fi),甚至更重要的是theta。我將它們排除在外是因為它們雖然很重要,但它們也很少使用且相對先進,並且顯然本文針對的是相對較新的統計學家。