P值(P value)就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的機率。如果P值很小,說明原假設情況的發生的機率很小,而如果出現了,根據小機率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分。
總之,P值越小,表明結果越顯著。但是檢驗的結果究竟是“顯著的”、“中度顯著的”還是“高度顯著的”需要我們自己根據P值的大小和實際問題來解決。
計算:
為理解P值的計算過程,用Z表示檢驗的統計量,ZC表示根據樣本資料計算得到的檢驗統計量值。
1、左側檢驗
P值是當
時,檢驗統計量小於或等於根據實際觀測樣本資料計算得到的檢驗統計量值的機率,即p值
2、右側檢驗
P值是當μ=μ0時,檢驗統計量大於或等於根據實際觀測樣本資料計算得到的檢驗統計量值的機率,即p值
3、雙側檢驗
擴充套件資料
美國統計協會公佈了P值使用的幾大準則:
準則1:P值可以表達的是資料與一個給定模型不匹配的程度
這條準則的意思是說,我們通常會設立一個假設的模型,稱為“原假設”,然後在這個模型下觀察資料在多大程度上與原假設背道而馳。P值越小,說明資料與模型之間越不匹配。
準則2:P值並不能衡量某條假設為真的機率,或是資料僅由隨機因素產生的機率。
這條準則表明,儘管研究者們在很多情況下都希望計算出某假設為真的機率,但P值的作用並不是這個。P值只解釋資料與假設之間的關係,它並不解釋假設本身。
準則3:科學結論、商業決策或政策制定不應該僅依賴於P值是否超過一個給定的閾值。
這一條給出了對決策制定的建議:成功的決策取決於很多方面,包括實驗的設計,測量的質量,外部的資訊和證據,假設的合理性等等。僅僅看P值是否小於0.05是非常具有誤導性的。
準則4:合理的推斷過程需要完整的報告和透明度。
這條準則強調,在給出統計分析的結果時,不能有選擇地給出P值和相關分析。舉個例子來說,某項研究可能使用了好幾種分析的方法。
而研究者只報告P值最小的那項,這就會使得P值無法進行解釋。相應地,宣告建議研究者應該給出研究過程中檢驗過的假設的數量,所有使用過的方法和相應的P值等。
準則5:P值或統計顯著性並不衡量影響的大小或結果的重要性。
這句話說明,統計的顯著性並不代表科學上的重要性。一個經常會看到的現象是,無論某個效應的影響有多小,當樣本量足夠大或測量精度足夠高時,P值通常都會很小。反之,一些重大的影響如果樣本量不夠多或測量精度不夠高,其P值也可能很大。
準則6:P值就其本身而言,並不是一個非常好的對模型或假設所含證據大小的衡量。
簡而言之,資料分析不能僅僅計算P值,而應該探索其他更貼近資料的模型。
宣告之後還列舉出了一些其他的能對P值進行補充的分析方手段,比如置信區間,貝葉斯方法,似然比,FDR(False Discovery Rate)等等。這些方法都依賴於一些其他的假定,但在一些特定的問題中會比P值更為直接地回答諸如“哪個假定更為正確”這樣的問題。
宣告最後給出了對統計實踐者的一些建議:好的科學實踐包括方方面面,如好的設計和實施,數值上和圖形上對資料進行彙總,對研究中現象的理解,對結果的解釋,完整的報告等等——科學的世界裡,不存在哪個單一的指標能替代科學的思維方式。
P值(P value)就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的機率。如果P值很小,說明原假設情況的發生的機率很小,而如果出現了,根據小機率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分。
總之,P值越小,表明結果越顯著。但是檢驗的結果究竟是“顯著的”、“中度顯著的”還是“高度顯著的”需要我們自己根據P值的大小和實際問題來解決。
計算:
為理解P值的計算過程,用Z表示檢驗的統計量,ZC表示根據樣本資料計算得到的檢驗統計量值。
1、左側檢驗
P值是當
時,檢驗統計量小於或等於根據實際觀測樣本資料計算得到的檢驗統計量值的機率,即p值
2、右側檢驗
P值是當μ=μ0時,檢驗統計量大於或等於根據實際觀測樣本資料計算得到的檢驗統計量值的機率,即p值
3、雙側檢驗
P值是當μ=μ0時,檢驗統計量大於或等於根據實際觀測樣本資料計算得到的檢驗統計量值的機率,即p值
擴充套件資料
美國統計協會公佈了P值使用的幾大準則:
準則1:P值可以表達的是資料與一個給定模型不匹配的程度
這條準則的意思是說,我們通常會設立一個假設的模型,稱為“原假設”,然後在這個模型下觀察資料在多大程度上與原假設背道而馳。P值越小,說明資料與模型之間越不匹配。
準則2:P值並不能衡量某條假設為真的機率,或是資料僅由隨機因素產生的機率。
這條準則表明,儘管研究者們在很多情況下都希望計算出某假設為真的機率,但P值的作用並不是這個。P值只解釋資料與假設之間的關係,它並不解釋假設本身。
準則3:科學結論、商業決策或政策制定不應該僅依賴於P值是否超過一個給定的閾值。
這一條給出了對決策制定的建議:成功的決策取決於很多方面,包括實驗的設計,測量的質量,外部的資訊和證據,假設的合理性等等。僅僅看P值是否小於0.05是非常具有誤導性的。
準則4:合理的推斷過程需要完整的報告和透明度。
這條準則強調,在給出統計分析的結果時,不能有選擇地給出P值和相關分析。舉個例子來說,某項研究可能使用了好幾種分析的方法。
而研究者只報告P值最小的那項,這就會使得P值無法進行解釋。相應地,宣告建議研究者應該給出研究過程中檢驗過的假設的數量,所有使用過的方法和相應的P值等。
準則5:P值或統計顯著性並不衡量影響的大小或結果的重要性。
這句話說明,統計的顯著性並不代表科學上的重要性。一個經常會看到的現象是,無論某個效應的影響有多小,當樣本量足夠大或測量精度足夠高時,P值通常都會很小。反之,一些重大的影響如果樣本量不夠多或測量精度不夠高,其P值也可能很大。
準則6:P值就其本身而言,並不是一個非常好的對模型或假設所含證據大小的衡量。
簡而言之,資料分析不能僅僅計算P值,而應該探索其他更貼近資料的模型。
宣告之後還列舉出了一些其他的能對P值進行補充的分析方手段,比如置信區間,貝葉斯方法,似然比,FDR(False Discovery Rate)等等。這些方法都依賴於一些其他的假定,但在一些特定的問題中會比P值更為直接地回答諸如“哪個假定更為正確”這樣的問題。
宣告最後給出了對統計實踐者的一些建議:好的科學實踐包括方方面面,如好的設計和實施,數值上和圖形上對資料進行彙總,對研究中現象的理解,對結果的解釋,完整的報告等等——科學的世界裡,不存在哪個單一的指標能替代科學的思維方式。