回覆列表
  • 1 # 用戶劉葉生

    所謂數據的中心化是指數據集中的各項數據減去數據集的均值。

    例如有數據集1, 2, 3, 6, 3,其均值為3,那麼中心化之後的數據集為1-3,2-3,3-3,6-3,3-3,即:-2,-1,0,3,0。數據中心化是為了消除量綱對數據結構的影響,因為不同變量之間單位不一樣,會造成各種統計量的偏誤。

    在回歸問題和一些機器學習算法中,以及訓練神經網絡的過程中,通常需要對原始數據進行中心化(Zero-centered或者Mean-subtraction(subtraction表示減去))處理和標準化(Standardization或Normalization)處理數據標準化(歸一化)處理是數據挖掘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數據分析的結果,為了消除指標之間的量綱影響,需要進行數據標準化處理,以解決數據指標之間的可比性。原始數據經過數據標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。