回覆列表
  • 1 # 使用者9923191605008

    主成分分析PCA(Principal Component Analysis)是非監督的機器學習方法,廣泛應用於資料降維。在許多領域的研究與應用中,往往需要對反映事物的多個變數進行大量的觀測,收集大量資料以便進行分析尋找規律。多變數大樣本無疑會為研究和應用提供了豐富的資訊,但也在一定程度上增加了資料採集的工作量,更重要的是在多數情況下,許多變數之間可能存在相關性,從而增加了問題分析的複雜性,同時對分析帶來不便。如果分別對每個指標進行分析,分析往往是孤立的,而不是綜合的。盲目減少指標會損失很多資訊,容易產生錯誤的結論。因此需要找到一個合理的方法,在減少需要分析的指標同時,儘量減少原指標包含資訊的損失,以達到對所收集資料進行全面分析的目的。由於各變數間存在一定的相關關係,因此有可能用較少的綜合指標分別綜合存在於各變數中的各類資訊。主成分分析與因子分析就屬於這類降維的方法。

    一.主成分分析思想

    PCA的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。它的目標是透過某種線性投影,將高維的資料對映到低維的空間中,並期望在所投影的維度上資料的資訊量最大(方差最大),以此使用較少的資料維度,同時保留住較多的原資料點的特性。PCA降維的目的,就是為了在儘量保證“資訊量不丟失”的情況下,對原始特徵進行降維,也就是儘可能將原始特徵往具有最大投影資訊量的維度上進行投影。將原特徵投影到這些維度上,使降維後資訊量損失最小。

    二,主成分分析求解步驟

    求解步驟如下:

    去除平均值計算協方差矩陣計算協方差矩陣的特徵值和特徵向量將特徵值排序保留前N個最大的特徵值對應的特徵向量將原始特徵轉換到上面得到的N個特徵向量構建的新空間中,實現特徵壓縮。

    假設有M個樣本{X1,X2,...,XM},每個樣本有N維特徵 Xi=(xi1,xi2,...,xiN)T,每一個特徵xjxj都有各自的特徵值。

    第一步:對所有特徵進行中心化:去均值。

    求每一個特徵的平均值,然後對於所有的樣本,每一個特徵都減去自身的均值。經過去均值處理之後,原始特徵的值就變成了新的值,在這個新值基礎上,進行下面的操作。

    第二步:求協方差矩陣C(以二維特徵為例)

    計算公式:

    上述矩陣中,對角線上分別是特徵x1和x2的方差,非對角線上是協方差。協方差大於0表示x1和x2 若有一個增,另一個也增;小於0表示一個增,一個減;協方差為0時,兩者獨立。協方差絕對值越大,兩者對彼此的影響越大,反之越小。其中,cov(x1,x1)的求解公式如下,其他類似。

    根據上面的協方差計算公式我們就得到了這M個樣本在這N維特徵下的協方差矩陣C。之所以除以M-1而不是除以M,是因為這樣能使我們以較小的樣本集更好的逼近總體的標準差,即統計上所謂的“無偏估計”。

    第三步:求協方差矩陣C的特徵值和相對應的特徵向量。

    利用矩陣的知識,求協方差矩陣 C 的特徵值 λ 和相對應的特徵向量 u(每一個特徵值對應一個特徵向量):Cu=λu

    特徵值λ會有N個,每一個λi對應一個特徵向量 ui,將特徵值λ按照從大到小的順序排序,選擇最大的前k個,並將其相對應的k個特徵向量拿出來,我們會得到一組{(λ1,u1),(λ2,u2),...,(λk,uk)}。

    第四步:將原始特徵投影到選取的特徵向量上,得到降維後的新K維特徵

    這個選取最大的前k個特徵值和相對應的特徵向量,並進行投影的過程,就是降維的過程。對於每一個樣本$ Xi$,原來的特徵是$(xi_1,xi_2,…,xi_n)^T$,投影之後的新特徵是 (yi1,yi2,...,yik)T,新特徵的計算公式如下:

  • 2 # 使用者9923191605008

    主成分分析PCA(Principal Component Analysis)是非監督的機器學習方法,廣泛應用於資料降維。在許多領域的研究與應用中,往往需要對反映事物的多個變數進行大量的觀測,收集大量資料以便進行分析尋找規律。多變數大樣本無疑會為研究和應用提供了豐富的資訊,但也在一定程度上增加了資料採集的工作量,更重要的是在多數情況下,許多變數之間可能存在相關性,從而增加了問題分析的複雜性,同時對分析帶來不便。如果分別對每個指標進行分析,分析往往是孤立的,而不是綜合的。盲目減少指標會損失很多資訊,容易產生錯誤的結論。因此需要找到一個合理的方法,在減少需要分析的指標同時,儘量減少原指標包含資訊的損失,以達到對所收集資料進行全面分析的目的。由於各變數間存在一定的相關關係,因此有可能用較少的綜合指標分別綜合存在於各變數中的各類資訊。主成分分析與因子分析就屬於這類降維的方法。

    一.主成分分析思想

    PCA的主要思想是將n維特徵對映到k維上,這k維是全新的正交特徵也被稱為主成分,是在原有n維特徵的基礎上重新構造出來的k維特徵。它的目標是透過某種線性投影,將高維的資料對映到低維的空間中,並期望在所投影的維度上資料的資訊量最大(方差最大),以此使用較少的資料維度,同時保留住較多的原資料點的特性。PCA降維的目的,就是為了在儘量保證“資訊量不丟失”的情況下,對原始特徵進行降維,也就是儘可能將原始特徵往具有最大投影資訊量的維度上進行投影。將原特徵投影到這些維度上,使降維後資訊量損失最小。

    二,主成分分析求解步驟

    求解步驟如下:

    去除平均值計算協方差矩陣計算協方差矩陣的特徵值和特徵向量將特徵值排序保留前N個最大的特徵值對應的特徵向量將原始特徵轉換到上面得到的N個特徵向量構建的新空間中,實現特徵壓縮。

    假設有M個樣本{X1,X2,...,XM},每個樣本有N維特徵 Xi=(xi1,xi2,...,xiN)T,每一個特徵xjxj都有各自的特徵值。

    第一步:對所有特徵進行中心化:去均值。

    求每一個特徵的平均值,然後對於所有的樣本,每一個特徵都減去自身的均值。經過去均值處理之後,原始特徵的值就變成了新的值,在這個新值基礎上,進行下面的操作。

    第二步:求協方差矩陣C(以二維特徵為例)

    計算公式:

    上述矩陣中,對角線上分別是特徵x1和x2的方差,非對角線上是協方差。協方差大於0表示x1和x2 若有一個增,另一個也增;小於0表示一個增,一個減;協方差為0時,兩者獨立。協方差絕對值越大,兩者對彼此的影響越大,反之越小。其中,cov(x1,x1)的求解公式如下,其他類似。

    根據上面的協方差計算公式我們就得到了這M個樣本在這N維特徵下的協方差矩陣C。之所以除以M-1而不是除以M,是因為這樣能使我們以較小的樣本集更好的逼近總體的標準差,即統計上所謂的“無偏估計”。

    第三步:求協方差矩陣C的特徵值和相對應的特徵向量。

    利用矩陣的知識,求協方差矩陣 C 的特徵值 λ 和相對應的特徵向量 u(每一個特徵值對應一個特徵向量):Cu=λu

    特徵值λ會有N個,每一個λi對應一個特徵向量 ui,將特徵值λ按照從大到小的順序排序,選擇最大的前k個,並將其相對應的k個特徵向量拿出來,我們會得到一組{(λ1,u1),(λ2,u2),...,(λk,uk)}。

    第四步:將原始特徵投影到選取的特徵向量上,得到降維後的新K維特徵

    這個選取最大的前k個特徵值和相對應的特徵向量,並進行投影的過程,就是降維的過程。對於每一個樣本$ Xi$,原來的特徵是$(xi_1,xi_2,…,xi_n)^T$,投影之後的新特徵是 (yi1,yi2,...,yik)T,新特徵的計算公式如下:

  • 中秋節和大豐收的關聯?
  • 工傷鑑定後如何辦理增加病項鑑定?