K-means 聚類
· 分配:隨機設定 K 箇中心,將每個點分配給最接近點的中心
· 最佳化:移動中心以最佳化分配給它們的距離
· 重複步驟 1 和 2:將點重新分配給中心,並重新最佳化
缺點:
> Getting 3 Clusters But in Local Minimum
· 本地最小值 – 我們可以在不同的初始條件下多次執行 K-Means 聚類,以找到最佳輸出。
· 對噪音和異常值敏感
選擇 K
· 彎頭方法:繪製 k 的升序值與使用該 k 計算的總誤差,以查詢最小總誤差。
· 平均剪影方法:使用該 k 繪製 k 的升序值與平均剪影(同一聚類中點之間的平均距離)來查詢最大平均剪影。
分層聚類> Single-Link Clustering
· 單鏈路:兩個群集之間的距離由兩個群集之間的最近點確定。然後將兩個最近的群集合併到一個群集中。
· 完整連結:兩個群集之間的距離由兩個群集之間的最遠點確定。然後將兩個最近的群集合併到一個群集中。
· 平均連結:兩個群集之間的距離由兩個群集之間所有點的平均值確定。然後將兩個最近的群集合併到一個群集中。
· 病房:獲取 3 箇中心點,群集 A 的中心點 A,群集 B 的中心點 B,兩個群集中所有點的中心點 X。兩個聚類之間的距離透過求和所有點到點 X 的距離,減去聚類 A 中所有點到點 A 的距離,以及聚類 B 中所有點到點 B 的距離。然後將兩個最近的群集合併到一個群集中。合併後群集中方差增加最少。
優勢:
· 生成的分層表示可以非常翔實
· 提供額外的視覺化功能(圖面圖)
· 當資料集包含真正的分層關係時特別有效
缺點:
· 對噪音和異常值敏感
· 計算密集型 O(N2)
DBSCAN輸入:
Epsilon - 圍繞點MinPoint的搜尋距離 - 形成群集所需的最小點數
掃描所有點,並確定每個點是噪聲點、核心點還是邊界點。
優勢:
· 無需指定群集數
· 叢集形狀和尺寸的靈活性
· 能夠處理噪音和異常值
缺點:
· 可從兩個群集到達的板點首先分配給群集,因此 DBSCAN 無法保證每次執行時相同的群集。
· 難以找到不同密度的聚類。(HDBSCAN 可以解決此問題)
GMM· 初始化 K 高斯分佈 - 可以使用 K-means 查詢初始化點,設定均值、方差和共方差。
· 軟聚類 - 查詢它所屬的群集的每個點的機率。
· 重新估計高斯 - 使用步驟 2 中的輸出,使用群集中點的加權平均值查詢新高斯的新平均值和新方差。
· 評估高斯Log可能性
· 重複步驟 2 - 步驟 4,直到日誌可能性收斂
優勢:
· 軟群集(對於資料點,可以找到其成員/多個群集的可能性)
· 群集形狀的靈活性(群集中可以包含另一個群集)
缺點:
· 對初始化值敏感
· 可能收斂到區域性最佳
· 收斂速度慢
群集驗證· 外部索引:標記資料的評分方法 調整蘭特指數
· 內部指數:無標籤資料的評分方法銀點係數
PCA· 將輸入功能轉換為主要元件,並將 PC 用作新功能
· PC 是能夠最大化方差或最大限度地減少資訊損失的資料方向
· PC 是彼此的獨立功能
· PC 的最大數量是輸入功能的數量
· 減小尺寸,降低噪音
· 使用 PCA 查詢驅動資料模式的潛在特徵
· 使其他演算法更好地工作,因為輸入更少
隨機投影當 PCA 太慢時,我們可以使用隨機投影來減小尺寸。透過將隨機矩陣相乘從 D 維度到 K 尺寸,並在很大程度上保持點之間的距離。
LCA· 假定元件在統計上是獨立的
· 元件是非 Causian
(本文翻譯自Tivadar Danka的文章《Machine Learning Cheat Sheet — Unsupervised Learning》,參考:https://towardsdatascience.com/machine-learning-cheat-sheet-unsupervised-learning-d954a9247fbe)