考慮一個簡單例子。現在有兩種零件AB,A的長度服從正態分佈 , B的長度服從正態分佈 . 現在給你一堆零件,只知道都是同一種,但不知道是A還是B。你去拿了n個零件測了長度,求了個樣本均值。現在就要透過這個樣本均值判斷這堆零件是A還是B。這個樣本均值作為隨機變數,方差是 ,期望是 (A) 或 (B)。密度函式見上圖。現在要給定一個界線k,如果樣本均值小於k,就認為零件來自A,如果大於k,就認為零件來自B。
記零假設為『零件來自A』,I類錯誤是說零件確實來自A,但樣本均值大於k,誤以為零件來自B。II類錯誤是說零件來自B,但樣本均值小於k,誤以為零件來自A。
I類錯誤的機率就是 ,如果增加k,會越來越小。II類錯誤的機率就是 ,如果增加k,會越來越大。
所以說在樣本容量固定的情況下,如果我們改變k,兩類錯誤的機率會此消彼長。
更具體一些,上面兩個分佈有重合部分,表明同樣的樣本均值,既可能來自A,也可能來自B,所以不管用怎樣的判別方法,一定會犯錯誤,不管是I類還是II類。重合部分的機率就是兩類錯誤機率之和的下限。
但當增加樣本容量時,樣本均值的方差變小,對於同樣的k,兩類錯誤的機率都變小。當然可以改變k,使得I類錯誤的機率不變,II類錯誤的機率減小。
兩類錯誤,都是因為對於有限的樣本,樣本的平均性質可能與真值有偏差,零假設和備擇假設對應的分佈有重合,不得不進行取捨。由大數律/中心極限定理,樣本容量越大,樣本的平均性質越接近真值,兩個分佈越來越瘦,重合部分變小,越不容易犯兩類錯誤。
考慮一個簡單例子。現在有兩種零件AB,A的長度服從正態分佈 , B的長度服從正態分佈 . 現在給你一堆零件,只知道都是同一種,但不知道是A還是B。你去拿了n個零件測了長度,求了個樣本均值。現在就要透過這個樣本均值判斷這堆零件是A還是B。這個樣本均值作為隨機變數,方差是 ,期望是 (A) 或 (B)。密度函式見上圖。現在要給定一個界線k,如果樣本均值小於k,就認為零件來自A,如果大於k,就認為零件來自B。
記零假設為『零件來自A』,I類錯誤是說零件確實來自A,但樣本均值大於k,誤以為零件來自B。II類錯誤是說零件來自B,但樣本均值小於k,誤以為零件來自A。
I類錯誤的機率就是 ,如果增加k,會越來越小。II類錯誤的機率就是 ,如果增加k,會越來越大。
所以說在樣本容量固定的情況下,如果我們改變k,兩類錯誤的機率會此消彼長。
更具體一些,上面兩個分佈有重合部分,表明同樣的樣本均值,既可能來自A,也可能來自B,所以不管用怎樣的判別方法,一定會犯錯誤,不管是I類還是II類。重合部分的機率就是兩類錯誤機率之和的下限。
但當增加樣本容量時,樣本均值的方差變小,對於同樣的k,兩類錯誤的機率都變小。當然可以改變k,使得I類錯誤的機率不變,II類錯誤的機率減小。
兩類錯誤,都是因為對於有限的樣本,樣本的平均性質可能與真值有偏差,零假設和備擇假設對應的分佈有重合,不得不進行取捨。由大數律/中心極限定理,樣本容量越大,樣本的平均性質越接近真值,兩個分佈越來越瘦,重合部分變小,越不容易犯兩類錯誤。