當我們想知道總體的平均數時,常常由於總體數量過大,沒有辦法進行普查,於是我們可以取一些樣本,算出樣本統計量,然後根據樣本統計量來估計總體。下面我們透過一個例子來解釋,如何透過樣本來求出總體的置信區間:
【置信區間】你想研究某種減肥藥的效果。
於是你找來50個人,讓她們每天吃減肥藥。一個月後,測量他們體重的減少量。
平均數 x̅ = 3 kg, 標準差 s = 1 kg
現在這裡面只有t-score不知道,所以我們先算t-score。
t(n=50) = t(df=49),假設定信度是95%,兩邊就身下0.025的機率。
用R算出來t-score = 2
SE = s/sqrt(n) = 1/sqrt(49)=1/7
x̅ ± t * SE = = 3±2 * 1/7 = 3±0.28 = (2.72, 3.28)
所以95%確定:吃減肥藥後一個月可以減掉的體重在 2.72 kg 到 3.28 kg 之間。
【假設檢驗】假設另一種減肥藥可以幫人減2.5kg,請問在95%的置信度下,能否證明新藥比舊藥療效好?
Ho: μ = 2.5 (假設新藥和舊藥沒有區別)
Ha: μ ≠ 2.5 (假設新藥和舊藥有區別)
現在算一下t-score = (樣本平均數 - 原假設)/ Standard Error
=(x̅ - μ)/ SE = (3 - 2.5 ) / (1/7) = 3.5
得到test statistic後,就可以開始算P - value了,首先應該先畫一個t-distribution, 搞清楚哪一部分的機率是你感興趣的。
現在可以用R來求陰影部分的機率了:
算出陰影部分的機率是0.001, 遠小於顯著性水平0.05,說明在新減肥藥的減肥效果為2.5kg,標準差為1,為真的情況下,找50個人,算出平均數為3kg這件事發生的機率很小,基本可以證明,原假設是錯的,所以要拒絕原假設。
p(Ha|Ho為真) = 0.001 < 0.05 , 拒絕原假設。
當我們想知道總體的平均數時,常常由於總體數量過大,沒有辦法進行普查,於是我們可以取一些樣本,算出樣本統計量,然後根據樣本統計量來估計總體。下面我們透過一個例子來解釋,如何透過樣本來求出總體的置信區間:
【置信區間】你想研究某種減肥藥的效果。
於是你找來50個人,讓她們每天吃減肥藥。一個月後,測量他們體重的減少量。
平均數 x̅ = 3 kg, 標準差 s = 1 kg
現在這裡面只有t-score不知道,所以我們先算t-score。
t(n=50) = t(df=49),假設定信度是95%,兩邊就身下0.025的機率。
用R算出來t-score = 2
SE = s/sqrt(n) = 1/sqrt(49)=1/7
x̅ ± t * SE = = 3±2 * 1/7 = 3±0.28 = (2.72, 3.28)
所以95%確定:吃減肥藥後一個月可以減掉的體重在 2.72 kg 到 3.28 kg 之間。
【假設檢驗】假設另一種減肥藥可以幫人減2.5kg,請問在95%的置信度下,能否證明新藥比舊藥療效好?
Ho: μ = 2.5 (假設新藥和舊藥沒有區別)
Ha: μ ≠ 2.5 (假設新藥和舊藥有區別)
SE = s/sqrt(n) = 1/sqrt(49)=1/7
現在算一下t-score = (樣本平均數 - 原假設)/ Standard Error
=(x̅ - μ)/ SE = (3 - 2.5 ) / (1/7) = 3.5
得到test statistic後,就可以開始算P - value了,首先應該先畫一個t-distribution, 搞清楚哪一部分的機率是你感興趣的。
現在可以用R來求陰影部分的機率了:
算出陰影部分的機率是0.001, 遠小於顯著性水平0.05,說明在新減肥藥的減肥效果為2.5kg,標準差為1,為真的情況下,找50個人,算出平均數為3kg這件事發生的機率很小,基本可以證明,原假設是錯的,所以要拒絕原假設。
p(Ha|Ho為真) = 0.001 < 0.05 , 拒絕原假設。