聚類分析(cluster analysis)簡稱聚類(clustering),它是資料探勘領域最重要的研究分支之一,也是最為常見和最有潛力的發展方向之一。聚類分析是根據事物自身的特性對被聚類物件進行類別劃分的統計分析方法,它的目的是根據某種相似度度量對資料集進行劃分。
聚類作為資料探勘領域的一個重要模組,它被廣泛應用於各種各樣的領域中,如市場分析、生命科學、時序資料分析、複雜網路的社團發現等。聚類既可以作為一個單獨的工具以發現數據樣本中一些隱含的、深層的資訊,也可以作為其他資料探勘分析方法的一個預處理步驟。聚類分析是資料探勘重要的工具,且已經被廣泛地應用於各學科領域。聚類分析目的是根據某種相似度度量對資料集進行劃分,將沒有類別的資料樣本劃分成若干個不同的子集,這樣的一個子集稱為簇(cluster),聚類使得同一個簇中的資料物件彼此相似,不同簇中的資料物件彼此不同,即通常所說的“物以類聚”。
聚類的主要過程如下:
(1)資料預處理。對資料進行標準化、降維和去除離群點等。
(2)定義相似度度量。相似度度量通常由距離函式表示,它的定義直接決定了資料物件
是否屬於一個簇。常用的距離函式有歐式距離、閔可夫斯基距離和簡單匹配相異度等。
(3)聚類。使用合適的聚類演算法對資料集進行劃分,得到聚類結果。
(4)聚類結果評估。使用評價指標對聚類結果進行評價,常用的評價指標有 RandIndex,
準確率 AC 等。
(5)聚類結果解釋。將聚類結果轉化成對生產、生活有用的知識。
許多研究將聚類演算法分為五大類,分別是:
基於劃分的、層次的、密度的、網格的和模型的聚類方法。
【參考資料】
1、面向分類資料的聚類演算法研究[D]. 曹付元.山西大學 2010
2、有限混合模型、非線性二維主成分分析及其在模式分類中應用[D]. 王海賢.安徽大學 2005
3、基於混合高斯模型的聚類分析[D]. 張燕傑.華中科技大學 2014
4、基於雲計算的分散式聚類演算法研究[D]. 盧晶.瀋陽工業大學 2018
聚類分析(cluster analysis)簡稱聚類(clustering),它是資料探勘領域最重要的研究分支之一,也是最為常見和最有潛力的發展方向之一。聚類分析是根據事物自身的特性對被聚類物件進行類別劃分的統計分析方法,它的目的是根據某種相似度度量對資料集進行劃分。
聚類作為資料探勘領域的一個重要模組,它被廣泛應用於各種各樣的領域中,如市場分析、生命科學、時序資料分析、複雜網路的社團發現等。聚類既可以作為一個單獨的工具以發現數據樣本中一些隱含的、深層的資訊,也可以作為其他資料探勘分析方法的一個預處理步驟。聚類分析是資料探勘重要的工具,且已經被廣泛地應用於各學科領域。聚類分析目的是根據某種相似度度量對資料集進行劃分,將沒有類別的資料樣本劃分成若干個不同的子集,這樣的一個子集稱為簇(cluster),聚類使得同一個簇中的資料物件彼此相似,不同簇中的資料物件彼此不同,即通常所說的“物以類聚”。
聚類的主要過程如下:
(1)資料預處理。對資料進行標準化、降維和去除離群點等。
(2)定義相似度度量。相似度度量通常由距離函式表示,它的定義直接決定了資料物件
是否屬於一個簇。常用的距離函式有歐式距離、閔可夫斯基距離和簡單匹配相異度等。
(3)聚類。使用合適的聚類演算法對資料集進行劃分,得到聚類結果。
(4)聚類結果評估。使用評價指標對聚類結果進行評價,常用的評價指標有 RandIndex,
準確率 AC 等。
(5)聚類結果解釋。將聚類結果轉化成對生產、生活有用的知識。
許多研究將聚類演算法分為五大類,分別是:
基於劃分的、層次的、密度的、網格的和模型的聚類方法。
【參考資料】
1、面向分類資料的聚類演算法研究[D]. 曹付元.山西大學 2010
2、有限混合模型、非線性二維主成分分析及其在模式分類中應用[D]. 王海賢.安徽大學 2005
3、基於混合高斯模型的聚類分析[D]. 張燕傑.華中科技大學 2014
4、基於雲計算的分散式聚類演算法研究[D]. 盧晶.瀋陽工業大學 2018