回覆列表
-
1 # 笨鳥學資料分析
-
2 # 小AI諮詢
本文內容主要包括聚類分析介紹,原理和案例實踐。
聚類分析介紹聚類分析也稱無監督學習, 因為和分類學習相比,聚類的樣本沒有標記,需要由聚類學習演算法來自動確定。聚類分析是研究如何在沒有訓練的條件下把樣本劃分為若干類。
K-means聚類演算法是最為經典也是使用最為廣泛的一種基於劃分的聚類演算法,它屬於基於距離的聚類演算法。
所謂基於距離的聚類演算法是指採用距離作為相似性量度的評價指標,也就是說當兩個物件離得近時,兩者之間的距離比較小,那麼它們之間的相似性就比較大。這類演算法通常是由距離比較相近的物件組成簇,把得到緊湊而且獨立的簇作為最終目標,因此將這類演算法稱為基於距離的聚類演算法。K-means聚類演算法就是其中比較經典的一種演算法。
K-means演算法,也被稱為K-平均或K-均值演算法,它是將各個聚類子集內的所有資料樣本的均值作為該聚類的代表點,演算法的主要思想是透過迭代過程把資料集劃分為不同的類別,使得評價聚類效能的準則函式達到最優(誤差平方和準則函式E),從而使生成的每個聚類(又稱簇)內緊湊,類間獨立。
K-means聚類演算法原理和步驟輸入:初始資料集和簇(聚類)的數目K。
輸出:K個簇,滿足誤差平方和準則函式收斂。
演算法步驟:
1)任意選擇K個數據物件作為初始聚類中心;
2)將樣本集中的樣本按照最小距離原則分配到最鄰近聚類中心;
3)使用得到的每個聚類中的樣本均值作為新的聚類中心;
4)重複步驟2和3直到聚類中心不再變化,或者是直到誤差平方和準則函式收斂,即|E(K+1)-E(K)|<e;
5)結束,得到K個聚類。
K-means聚類演算法例項初始資料集,共5條記錄,每條資料記錄包含兩個屬性x和y。
作為一個聚類分析的二維樣本,要求的簇的數量K=2,聚類過程和示意圖如下所示。
機器學習問題有兩類:監督學習和無監督學習。聚類分析屬於無監督機器學習中的一種演算法。
在做使用者分析的時候,聚類分析主要用於使用者分類,下面透過一個案例說明。
案例背景在使用者運營過程中,通常需要根據使用者的屬性對使用者進行歸類,以便於在轉化過程中獲得更大的收益。使用者有很多屬性,究竟選擇哪些屬性進行分析呢?
基本理論1、第一個基本理論:RFM模型
根據美國資料庫營銷研究所Arthur Hughes的研究,客戶資料庫中有三個神奇的要素,這三個要素構成了客戶分類最好的指標:
R-最近一次消費距當前的時長(Recency)
F-消費頻率(Frequency)
M-消費金額(Monetary)
舉個例子:
客戶A,R:180天,F:1次/月,M:100元/月
客戶B,R:3天,F:10次/月,M:1000元/月
可以得出結論:客戶B的價值高於客戶A。這個理論被稱為RFM模型。
2、第二個基本理論:聚類分析
實際問題中,可不止兩個客戶,通常會有很多使用者,所以需要根據R、F、M指標對使用者進行分類,然後再判斷每個類別的客戶價值,而對使用者進行分類的常用方法就是聚類分析。
以上兩個基本理論合起來稱為RFM聚類分析。
提取資料例如,資料分析師從資料庫中提取出以下使用者相關資料。
使用者ID、首次購買時間、最近一次購買時間、購買總金額、購買總次數。
屬性構造根據RFM模型,我們需要R、F、M這三個指標,而拿到的資料沒有,所以需要先根據原始資料構造這三個指標:
R:最近一次投資時間距現在的時長
F:月均購買次數
M:月均購買金額
說明:假設該產品的消費頻率為月,所以這裡統計以月為單位。聚類分析構造R、F、M這三個指標後,用工具(Python、R或者SPSS)進行K-Means聚類分析,將使用者分成4個或8個類別。
說明:聚類分析主要用於這裡!!!
給出結論計算每個類別的R、F、M指標的均值,根據這三個核心指標,標註每個類別的使用者價值:高價值使用者、重要挽留客戶、重要保持客戶、低價值客戶等。
回答完畢!