聚類分析與關聯規則是資料探勘中的核心技術;
從統計學的觀點看,聚類分析是透過資料建模簡化資料的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜尋簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練例項,需要由聚類學習演算法自動確定標記,而分類學習的例項或資料物件有類別標記。聚類是觀察式學習,而不是示例式的學習。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本資料出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組資料進行聚類分析,所得到的聚類數未必一致。
從實際應用的角度看,聚類分析是資料探勘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得資料的分佈狀況,觀察每一簇資料的特徵,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他演算法(如分類和定性歸納演算法)的預處理步驟。
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻專案組(FrequentItemsets),第二階段再由這些高頻專案組中產生關聯規則(AssociationRules)。
聚類分析與關聯規則是資料探勘中的核心技術;
從統計學的觀點看,聚類分析是透過資料建模簡化資料的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。
從機器學習的角度講,簇相當於隱藏模式。聚類是搜尋簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練例項,需要由聚類學習演算法自動確定標記,而分類學習的例項或資料物件有類別標記。聚類是觀察式學習,而不是示例式的學習。
聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本資料出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組資料進行聚類分析,所得到的聚類數未必一致。
從實際應用的角度看,聚類分析是資料探勘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得資料的分佈狀況,觀察每一簇資料的特徵,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他演算法(如分類和定性歸納演算法)的預處理步驟。
關聯規則挖掘過程主要包含兩個階段:第一階段必須先從資料集合中找出所有的高頻專案組(FrequentItemsets),第二階段再由這些高頻專案組中產生關聯規則(AssociationRules)。