在日常的統計分析中,標準差和標準誤是一對十分重要的統計量,兩者有區別也有聯絡。但是很多人卻沒有弄清其中的差異,經常性地進行一些錯誤的使用。對於標準差與標準誤的區別,很多書上這樣表達:標準差表示資料的離散程度,標準誤表示抽樣誤差的大小。這樣的解釋可能對於許多人來說等於沒有解釋。
其實這兩者的區別可以採用資料分佈表達方式描述如下:如果樣本服從均值為μ,標準差為δ的正態分佈,即X~N(μ,δ2),那麼樣本均值服從均值為0,標準差為δ2/n的正態分佈,即?~N(μ,δ2/n)。這裡δ為標準差,δ/n1/2為標準誤。明白了吧,用統計學的方法解釋起來就是這麼簡單。
可是,實際使用中總體引數往往未知,多數情況下用樣本統計量來表示。那麼,關於這兩者的區別可以這樣表述:標準差是樣本資料方差的平方根,它衡量的是樣本資料的離散程度;標準誤是樣本均值的標準差,衡量的是樣本均值的離散程度。而在實際的抽樣中,習慣用樣本均值來推斷總體均值,那麼樣本均值的離散程度(標準誤)越大,抽樣誤差就越大。所以用標準誤來衡量抽樣誤差的大小。
在此舉一個例子。比如,某學校共有500名學生,現在要透過抽取樣本量為30的一個樣本,來推斷學生的數學成績。這時可以依據抽取的樣本資訊,計算出樣本的均值與標準差。如果我們抽取的不是一個樣本,而是10個樣本,每個樣本30人,那麼每個樣本都可以計算出均值,這樣就會有10個均值。也就是形成了一個10個數字的數列,然後計算這10個數字的標準差,此時的標準差就是標準誤。但是,在實際抽樣中我們不可能抽取10個樣本。所以,標準誤就由樣本標準差除以樣本量來表示。當然,這樣的結論也不是隨心所欲,而是經過了統計學家的嚴密證明的。
在實際的應用中,標準差主要有兩點作用,一是用來對樣本進行標準化處理,即樣本觀察值減去樣本均值,然後除以標準差,這樣就變成了標準正態分佈;而是透過標準差來確定異常值,常用的方法就是樣本均值加減n倍的標準差。標準誤的作用主要是用來做區間估計,常用的估計區間是均值加減n倍的標準誤。
在日常的統計分析中,標準差和標準誤是一對十分重要的統計量,兩者有區別也有聯絡。但是很多人卻沒有弄清其中的差異,經常性地進行一些錯誤的使用。對於標準差與標準誤的區別,很多書上這樣表達:標準差表示資料的離散程度,標準誤表示抽樣誤差的大小。這樣的解釋可能對於許多人來說等於沒有解釋。
其實這兩者的區別可以採用資料分佈表達方式描述如下:如果樣本服從均值為μ,標準差為δ的正態分佈,即X~N(μ,δ2),那麼樣本均值服從均值為0,標準差為δ2/n的正態分佈,即?~N(μ,δ2/n)。這裡δ為標準差,δ/n1/2為標準誤。明白了吧,用統計學的方法解釋起來就是這麼簡單。
可是,實際使用中總體引數往往未知,多數情況下用樣本統計量來表示。那麼,關於這兩者的區別可以這樣表述:標準差是樣本資料方差的平方根,它衡量的是樣本資料的離散程度;標準誤是樣本均值的標準差,衡量的是樣本均值的離散程度。而在實際的抽樣中,習慣用樣本均值來推斷總體均值,那麼樣本均值的離散程度(標準誤)越大,抽樣誤差就越大。所以用標準誤來衡量抽樣誤差的大小。
在此舉一個例子。比如,某學校共有500名學生,現在要透過抽取樣本量為30的一個樣本,來推斷學生的數學成績。這時可以依據抽取的樣本資訊,計算出樣本的均值與標準差。如果我們抽取的不是一個樣本,而是10個樣本,每個樣本30人,那麼每個樣本都可以計算出均值,這樣就會有10個均值。也就是形成了一個10個數字的數列,然後計算這10個數字的標準差,此時的標準差就是標準誤。但是,在實際抽樣中我們不可能抽取10個樣本。所以,標準誤就由樣本標準差除以樣本量來表示。當然,這樣的結論也不是隨心所欲,而是經過了統計學家的嚴密證明的。
在實際的應用中,標準差主要有兩點作用,一是用來對樣本進行標準化處理,即樣本觀察值減去樣本均值,然後除以標準差,這樣就變成了標準正態分佈;而是透過標準差來確定異常值,常用的方法就是樣本均值加減n倍的標準差。標準誤的作用主要是用來做區間估計,常用的估計區間是均值加減n倍的標準誤。