異常值的處理步驟
異常值處理步驟基本分為三步:異常值檢測、異常值判定、異常值處理。
第一步:異常值檢測
異常值的檢驗有很多種方法,最常見的是點示法,也有使用分析方法進行探索:
箱盒:實驗研究時經常使用,非常直觀的展示出異常資料;
散點:研究X和Y的關係時,可直觀展示檢視是否有異常資料;
描述分析:可透過最大最小值等各類指標大致判斷資料是否有異常;
其它:比如結合正態分佈圖,頻數分析等判斷是否有異常值。
第二步:異常值判定
上述已經說明異常值會帶來嚴重的影響,扭曲資料結論等。那麼接下來就需要設定異常值的標準,然後再對其進行處理。異常值的判定標準並不統一,更多是透過人為標準進行設定,SPSSAU提供以下幾類判定規則:
缺失數字小於設定標準的數字:使用者設定一個標準值,小於該數值即判定為異常值
大於設定標準的數字:使用者設定一個標準值,大於該數值即判定為異常值
大於3個標準差:與平均值的偏差超過三倍標準差的值,即判定為異常值
第三步:異常值處理
確定判定標準後,接著需要對檢測到的異常值進行處理;SPSSAU提供兩類處理方式:
一類是,設定為Null,此類處理最簡單,因此絕大多數情況下均使用此類處理;當異常值較少時,建議使用此類方法。
另一類方法是填補法,即處理掉異常值,在同一位置進行填補設定。包括可選擇填補平均值、填補眾數、填補中位數或填補隨機數。
異常值的處理步驟
異常值處理步驟基本分為三步:異常值檢測、異常值判定、異常值處理。
第一步:異常值檢測
異常值的檢驗有很多種方法,最常見的是點示法,也有使用分析方法進行探索:
箱盒:實驗研究時經常使用,非常直觀的展示出異常資料;
散點:研究X和Y的關係時,可直觀展示檢視是否有異常資料;
描述分析:可透過最大最小值等各類指標大致判斷資料是否有異常;
其它:比如結合正態分佈圖,頻數分析等判斷是否有異常值。
第二步:異常值判定
上述已經說明異常值會帶來嚴重的影響,扭曲資料結論等。那麼接下來就需要設定異常值的標準,然後再對其進行處理。異常值的判定標準並不統一,更多是透過人為標準進行設定,SPSSAU提供以下幾類判定規則:
缺失數字小於設定標準的數字:使用者設定一個標準值,小於該數值即判定為異常值
大於設定標準的數字:使用者設定一個標準值,大於該數值即判定為異常值
大於3個標準差:與平均值的偏差超過三倍標準差的值,即判定為異常值
第三步:異常值處理
確定判定標準後,接著需要對檢測到的異常值進行處理;SPSSAU提供兩類處理方式:
一類是,設定為Null,此類處理最簡單,因此絕大多數情況下均使用此類處理;當異常值較少時,建議使用此類方法。
另一類方法是填補法,即處理掉異常值,在同一位置進行填補設定。包括可選擇填補平均值、填補眾數、填補中位數或填補隨機數。