聚類的每類樣本數、組合方法(哪些是屬於一類的)是一樣的,但我覺得每類的中心可能會發生偏移,但對分類效果影響可能比較小。以我的理解應該是一樣的。我現在一直做遙感高光譜分類,說說我的理解,資料歸一化在好多機器學習資料真正輸入整個網路之前普遍採用的預處理方法,而且預處理對資料處理很重要。資料的歸一化是為了使原始資料在不打亂資料分佈規律的前提下,使所有資料在真正訓練過程中1)歸一化後加快了梯度下降求最優解的速度;2)歸一化有可能提高精度。1) 加快了求最優解的速度
如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大,X1區間是[0,2000],X2區間是 [1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走“之字型”路線(垂直等高線走),從而導致需要迭代很多次才能收斂;
而右圖對兩個原始特徵進行了歸一化,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。
2)歸一化有可能提高精度。
一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特徵值域範圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域範圍小的特徵更重要)。
聚類的每類樣本數、組合方法(哪些是屬於一類的)是一樣的,但我覺得每類的中心可能會發生偏移,但對分類效果影響可能比較小。以我的理解應該是一樣的。我現在一直做遙感高光譜分類,說說我的理解,資料歸一化在好多機器學習資料真正輸入整個網路之前普遍採用的預處理方法,而且預處理對資料處理很重要。資料的歸一化是為了使原始資料在不打亂資料分佈規律的前提下,使所有資料在真正訓練過程中1)歸一化後加快了梯度下降求最優解的速度;2)歸一化有可能提高精度。1) 加快了求最優解的速度
如下圖所示,藍色的圈圈圖代表的是兩個特徵的等高線。其中左圖兩個特徵X1和X2的區間相差非常大,X1區間是[0,2000],X2區間是 [1,5],其所形成的等高線非常尖。當使用梯度下降法尋求最優解時,很有可能走“之字型”路線(垂直等高線走),從而導致需要迭代很多次才能收斂;
而右圖對兩個原始特徵進行了歸一化,其對應的等高線顯得很圓,在梯度下降進行求解時能較快的收斂。
因此如果機器學習模型使用梯度下降法求最優解時,歸一化往往非常有必要,否則很難收斂甚至不能收斂。2)歸一化有可能提高精度。
一些分類器需要計算樣本之間的距離(如歐氏距離),例如KNN。如果一個特徵值域範圍非常大,那麼距離計算就主要取決於這個特徵,從而與實際情況相悖(比如這時實際情況是值域範圍小的特徵更重要)。