簡介
Grubbs測試(以1950年發表測試的Frank E. Grubbs命名),也稱為最大歸一化殘差測試或極端學生化偏差測試,是一種統計測試,用於檢測假設的單變數資料集中的異常值來自正常分佈的人口。
定義
格拉布斯的測試基於正態假設。也就是說,在應用Grubbs測試之前,應首先驗證資料是否可以透過正態分佈合理地近似。
Grubbs測試是根據假設定義的:
H_{0}:資料集中沒有異常值
H_{a}:資料集中只有一個異常值
公式
G = {\ frac {\ displaystyle \ max _ {{i = 1ï¼\ ldotsï¼N}} \ left \ vert Y_ {i} - {\ bar {Y}} \ right \ vert} {s}}
{\ overline {Y}} 和 小號分別表示樣本均值和標準差。
Grubbs檢驗統計量是樣本標準差的單位與樣本均值的最大絕對偏差。
這是測試的雙邊版本。
Grubbs測試也可以定義為單側測試。
要測試最小值是否為異常值
公式:
G = {\ frac {{\ bar {Y}} - Y _ {\ min}} {s}}
要測試最大值是否為異常值
G = {\ frac {Y _ {\ max} - {\ bar {Y}}} {s}}
Y_{min}表示最小值。
Y_{max}表示最大值。
對於雙邊測試,沒有異常值的假設在顯著級別a級被拒絕
G> {\ frac {N-1} {{\ sqrt {N}}}} {\ sqrt {{\ frac {t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}} {N -2 + t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}}}}}
t_{a/(2N),N-2)}表示的上臨界值的的t分佈與N - 2 自由度和 顯著性水平a/(2N)。對於單側檢驗,用a/N代替a/(2N)。
t分佈可用於構建真實均值的置信區間。
缺點
格拉布斯和和狄克遜法均給出了嚴格的結果,但存在狄克遜法同樣的缺陷。
最佳化
朱宏等人採用資料值的中位數取代平均值,改進得到了更為穩健的處理方法,有效消除了同側異常值的遮蔽效應。
國際上常推薦採用格拉布斯準則法。
參考:https://en.wikipedia.org/wiki/Grubbs%27_test_for_outliers
簡介
Grubbs測試(以1950年發表測試的Frank E. Grubbs命名),也稱為最大歸一化殘差測試或極端學生化偏差測試,是一種統計測試,用於檢測假設的單變數資料集中的異常值來自正常分佈的人口。
定義
格拉布斯的測試基於正態假設。也就是說,在應用Grubbs測試之前,應首先驗證資料是否可以透過正態分佈合理地近似。
Grubbs測試是根據假設定義的:
H_{0}:資料集中沒有異常值
H_{a}:資料集中只有一個異常值
公式
G = {\ frac {\ displaystyle \ max _ {{i = 1ï¼\ ldotsï¼N}} \ left \ vert Y_ {i} - {\ bar {Y}} \ right \ vert} {s}}
{\ overline {Y}} 和 小號分別表示樣本均值和標準差。
Grubbs檢驗統計量是樣本標準差的單位與樣本均值的最大絕對偏差。
這是測試的雙邊版本。
Grubbs測試也可以定義為單側測試。
要測試最小值是否為異常值
公式:
G = {\ frac {{\ bar {Y}} - Y _ {\ min}} {s}}
要測試最大值是否為異常值
公式:
G = {\ frac {Y _ {\ max} - {\ bar {Y}}} {s}}
Y_{min}表示最小值。
Y_{max}表示最大值。
對於雙邊測試,沒有異常值的假設在顯著級別a級被拒絕
G> {\ frac {N-1} {{\ sqrt {N}}}} {\ sqrt {{\ frac {t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}} {N -2 + t _ {{\ alpha /ï¼2Nï¼ï¼N-2}} ^ {2}}}}}
t_{a/(2N),N-2)}表示的上臨界值的的t分佈與N - 2 自由度和 顯著性水平a/(2N)。對於單側檢驗,用a/N代替a/(2N)。
t分佈可用於構建真實均值的置信區間。
缺點
格拉布斯和和狄克遜法均給出了嚴格的結果,但存在狄克遜法同樣的缺陷。
最佳化
朱宏等人採用資料值的中位數取代平均值,改進得到了更為穩健的處理方法,有效消除了同側異常值的遮蔽效應。
國際上常推薦採用格拉布斯準則法。
參考:https://en.wikipedia.org/wiki/Grubbs%27_test_for_outliers