首頁>技術>

K-means 聚類

· 分配:隨機設定 K 箇中心,將每個點分配給最接近點的中心

· 最佳化:移動中心以最佳化分配給它們的距離

· 重複步驟 1 和 2:將點重新分配給中心,並重新最佳化

缺點:

> Getting 3 Clusters But in Local Minimum

· 本地最小值 – 我們可以在不同的初始條件下多次執行 K-Means 聚類,以找到最佳輸出。

· 對噪音和異常值敏感

選擇 K

· 彎頭方法:繪製 k 的升序值與使用該 k 計算的總誤差,以查詢最小總誤差。

· 平均剪影方法:使用該 k 繪製 k 的升序值與平均剪影(同一聚類中點之間的平均距離)來查詢最大平均剪影。

分層聚類

> Single-Link Clustering

· 單鏈路:兩個群集之間的距離由兩個群集之間的最近點確定。然後將兩個最近的群集合併到一個群集中。

· 完整連結:兩個群集之間的距離由兩個群集之間的最遠點確定。然後將兩個最近的群集合併到一個群集中。

· 平均連結:兩個群集之間的距離由兩個群集之間所有點的平均值確定。然後將兩個最近的群集合併到一個群集中。

· 病房:獲取 3 箇中心點,群集 A 的中心點 A,群集 B 的中心點 B,兩個群集中所有點的中心點 X。兩個聚類之間的距離透過求和所有點到點 X 的距離,減去聚類 A 中所有點到點 A 的距離,以及聚類 B 中所有點到點 B 的距離。然後將兩個最近的群集合併到一個群集中。合併後群集中方差增加最少。

優勢:

· 生成的分層表示可以非常翔實

· 提供額外的視覺化功能(圖面圖)

· 當資料集包含真正的分層關係時特別有效

缺點:

· 對噪音和異常值敏感

· 計算密集型 O(N2)

DBSCAN

輸入:

Epsilon - 圍繞點MinPoint的搜尋距離 - 形成群集所需的最小點數

掃描所有點,並確定每個點是噪聲點、核心點還是邊界點。

優勢:

· 無需指定群集數

· 叢集形狀和尺寸的靈活性

· 能夠處理噪音和異常值

缺點:

· 可從兩個群集到達的板點首先分配給群集,因此 DBSCAN 無法保證每次執行時相同的群集。

· 難以找到不同密度的聚類。(HDBSCAN 可以解決此問題)

GMM

· 初始化 K 高斯分佈 - 可以使用 K-means 查詢初始化點,設定均值、方差和共方差。

· 軟聚類 - 查詢它所屬的群集的每個點的機率。

· 重新估計高斯 - 使用步驟 2 中的輸出,使用群集中點的加權平均值查詢新高斯的新平均值和新方差。

· 評估高斯Log可能性

· 重複步驟 2 - 步驟 4,直到日誌可能性收斂

優勢:

· 軟群集(對於資料點,可以找到其成員/多個群集的可能性)

· 群集形狀的靈活性(群集中可以包含另一個群集)

缺點:

· 對初始化值敏感

· 可能收斂到區域性最佳

· 收斂速度慢

群集驗證

· 外部索引:標記資料的評分方法 調整蘭特指數

· 內部指數:無標籤資料的評分方法銀點係數

PCA

· 將輸入功能轉換為主要元件,並將 PC 用作新功能

· PC 是能夠最大化方差或最大限度地減少資訊損失的資料方向

· PC 是彼此的獨立功能

· PC 的最大數量是輸入功能的數量

· 減小尺寸,降低噪音

· 使用 PCA 查詢驅動資料模式的潛在特徵

· 使其他演算法更好地工作,因為輸入更少

隨機投影

當 PCA 太慢時,我們可以使用隨機投影來減小尺寸。透過將隨機矩陣相乘從 D 維度到 K 尺寸,並在很大程度上保持點之間的距離。

LCA

· 假定元件在統計上是獨立的

· 元件是非 Causian

(本文翻譯自Tivadar Danka的文章《Machine Learning Cheat Sheet — Unsupervised Learning》,參考:https://towardsdatascience.com/machine-learning-cheat-sheet-unsupervised-learning-d954a9247fbe)

17
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • Linux 檔案目錄都是什麼鬼?