不僅備擇假設的引數數值不需要提及,甚至連一型錯誤率都可以不必提及。大多數SPSS的應用示例都不需要輸入α值,更不需要輸入備擇假設的引數數值。這兩個具體數值與軟體報告的 p 值結果沒有關係。如果一位研究者報告的p值是0.03,以0.05為一型錯誤率的讀者讀到顯著拒絕的結論,以0.01為一型錯誤率的讀者讀到未達顯著未能拒絕的結論。
α是一個機率,這個數值有多大,在感同身受上,不同領域的研究者很容易溝通。1-α就是置信區間的置信度。「95%的置信度」或者「99%的置信度」都是很難彼此誤會的措辭。而總體引數的數值多大算大、多小算小,不同領域的研究者容易爭執、很難溝通。總體引數可能是帶有物理單位的數值,比如實驗組總體比控制組總體平均多睡眠多少「分鐘」;也可能是不帶物理引數的標準化效應量,比如實驗組總體比控制組總體睡眠質量評價表平均高出多少個總體標準差。對於標準化效應量,不少文獻和教材盲目引用 Jacob Cohen 的大、中、小閾值標準,而Cohen 文獻原文甚至明說:"not to employ them if possible" (除非不得已,儘量不要用這些姑妄言之的閾值標準)。
初學的知友可以嘗試套一個儘量簡單的例子:100個隨機個案的智商樣本均值M服從正態分佈,總體均值μ即所有隨機個案的智商均值。樣本均值的總體標準差確定為σ/10但具體數值未知。為了更進一步簡化問題澄清概念,不必用雙尾檢驗而只刻意用右尾檢驗的示例——備擇假設的μ > 虛無假設的μ,越大的檢驗統計量t值代表越極端的樣本,這個極端性的對比與假設的總體引數具體數值無關。
在教科書流行的Neyman-Pearson正規化下假設檢驗的一型錯誤率,需要給定虛無假設的總體引數μ才有定義;二型錯誤率,既需要給定虛無假設的總體引數μ,還需要同時給定備擇假設的總體引數μ。在研究實踐中,求二型錯誤率等價於求統計功效(=1 - 二型錯誤率),所以統計功效的報告都依賴備擇假設的總體引數。這是一個特別擰巴的邏輯:如果研究者可以說服讀者備擇假設的總體引數是什麼,那還搞啥假設檢驗。鮮有流行教材願意多費筆墨把這個基本邏輯點明。絕大多數教材的具體應用示例,都只提及一型錯誤率而不提及二型錯誤率,因為不想費口舌備擇假設的引數要怎麼確定。
在實際研究中更流行的Fisher p 值正規化下不僅備擇假設的引數數值不需要提及,甚至連一型錯誤率都可以不必提及。大多數SPSS的應用示例都不需要輸入α值,更不需要輸入備擇假設的引數數值。這兩個具體數值與軟體報告的 p 值結果沒有關係。如果一位研究者報告的p值是0.03,以0.05為一型錯誤率的讀者讀到顯著拒絕的結論,以0.01為一型錯誤率的讀者讀到未達顯著未能拒絕的結論。
在更合理的置信區間正規化下以上兩種正規化也許在教學中很少需要被清楚地區分,這兩種正規化都依賴虛無假設的引數選擇。實際研究中,有實驗組和對照組(或控制組),虛無假設的引數約定俗成為實驗組引數=對照組引數+0。但這未必總是合理的約定:也許研究者關心實驗組是否相比對照組高於(足夠大)有意義的閾值,或者實驗組是否相比對照組差距小於(足夠小)無意義的閾值。這時候,置信區間正規化就有了不可替代的應用價值。用Fisher p值正規化的概念去理解,置信區間是在回答哪些虛無假設引數導致p值低於α。Fisher p值不需要α、需要虛無假設引數;置信區間相反,需要α、不需要虛無假設引數。
置信區間正規化的優越之處α是一個機率,這個數值有多大,在感同身受上,不同領域的研究者很容易溝通。1-α就是置信區間的置信度。「95%的置信度」或者「99%的置信度」都是很難彼此誤會的措辭。而總體引數的數值多大算大、多小算小,不同領域的研究者容易爭執、很難溝通。總體引數可能是帶有物理單位的數值,比如實驗組總體比控制組總體平均多睡眠多少「分鐘」;也可能是不帶物理引數的標準化效應量,比如實驗組總體比控制組總體睡眠質量評價表平均高出多少個總體標準差。對於標準化效應量,不少文獻和教材盲目引用 Jacob Cohen 的大、中、小閾值標準,而Cohen 文獻原文甚至明說:"not to employ them if possible" (除非不得已,儘量不要用這些姑妄言之的閾值標準)。
小結一下要定義二型錯誤率,需要知道備擇假設的總體引數,這幾乎就是上帝視角;同時還需要約定虛無假設的總體引數。如果約定了虛無假設的總體引數,一型錯誤率可以因人而異。
為了定義一型錯誤率,在置信區間正規化下甚至連虛無假設的總體引數都不需要給定——這麼說好理解但也許不夠嚴謹,因為:在置信區間正規化下,置信區間沒有包含真實引數的「錯誤」已經無所謂陰性陽性。