回覆列表
  • 1 # 使用者8353000375543

    我先拋磚引玉。聚類分析的方法經常被用來進行市場細分或使用者分群。在聚類分析中,聚類變數的增加意味著需要更大的樣本量才能識別出一定的模式。許多變數(多維度空間)和很少的樣本(這個空間只有很少的資料點)(密度不夠)通常難以識別出一定的結構。因此,當聚類變數很多時,很多研究者先進行因子分析萃取出少量因子,然後再利用這些因子進行聚類分析。直到現在,你都能找到很多使用這種方法的研究文獻。但是,這種方法開始引起一些研究者的質疑。在2011年一篇名為《Three good reasons NOT to use factor-cluster segmentation》的文章中,研究者提出了三條理由說明先因子分析後聚類分析不如直接聚類:1. 這些萃取出的公因子只能解釋部分變異(這個做過因子分析的人都知道),這會丟失一些重要資訊;2.因子是對原始題項的抽象,沒有直接的實踐意義,甚至會出現一個因子下的題目邏輯上沒有關聯的情況;3. 研究者做了一些資料研究發現,對原始題目進行聚類分析比先因子分析再聚類分析更能識別出正確的資料結構。總之,直接聚類分析的方法實際上是更可靠的。另外還有一個值得提醒的問題就是,正如一開始提到的,參與聚類的變數數越多,所需樣本量就越大。如果直接拿變數進行聚類,常常要考慮自己的樣本量是否足夠的問題。很少有研究者提到變數數和樣本量之間的數量關係。不過,Anton Formann在他1984年的一本書中指出最少樣本量應該是2^k,其中k代表作為分群基礎的變數數。這意味著,10個變數至少需要1024個樣本(2^10=1024)。20個變數算出來的最少樣本量那就是天文數字了。如果直接聚類,建議先刪去冗餘變數再進行。

  • 2 # 已經過期了

    聚類就是根據資料內在的特徵將個案歸類的,你這個就等於聚成了一類,所以沒有怎麼回事,資料就是如此,你可以試一下不用因子直接用變數聚類看下怎麼樣

  • 中秋節和大豐收的關聯?
  • 2019澳大利亞公開賽7月13日有哪些場次比賽,中央電視臺直播嗎?