聚類分析:將個體(樣品)或者物件(變數)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。其主要依據是聚到同一個資料集中的樣本應該彼此相似,而屬於不同組的樣本應該足夠不相似。常用聚類方法:系統聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。注意事項:
聚類分析:將個體(樣品)或者物件(變數)按相似程度(距離遠近)劃分類別,使得同一類中的元素之間的相似性比其他類的元素的相似性更強。目的在於使類間元素的同質性最大化和類與類間元素的異質性最大化。其主要依據是聚到同一個資料集中的樣本應該彼此相似,而屬於不同組的樣本應該足夠不相似。常用聚類方法:系統聚類法,K-均值法,模糊聚類法,有序樣品的聚類,分解法,加入法。注意事項:
系統聚類法可對變數或者記錄進行分類,K-均值法只能對記錄進行分類;2. K-均值法要求分析人員事先知道樣品分為多少類;3. 對變數的多元正態性,方差齊性等要求較高。應用領域:細分市場,消費行為劃分,設計抽樣方案等優點:聚類分析模型的優點就是直觀,結論形式簡明。缺點:在樣本量較大時,要獲得聚類結論有一定困難。由於相似係數是根據被試的反映來建立反映被試間內在聯絡的指標,而實踐中有時儘管從被試反映所得出的資料中發現他們之間有緊密的關係,但事物之間卻無任何內在聯絡,此時,如果根據距離或相似係數得出聚類分析的結果,顯然是不適當的,但是,聚類分析模型本身卻無法識別這類錯誤。