無監督機器學習備忘清單

首頁>技術>聞數起舞2020-12-27 07:57

無監督機器學習備忘清單

K-means 聚類

· 分配：隨機設定 K 箇中心，將每個點分配給最接近點的中心

· 最佳化：移動中心以最佳化分配給它們的距離

· 重複步驟 1 和 2：將點重新分配給中心，並重新最佳化

缺點：

> Getting 3 Clusters But in Local Minimum

· 本地最小值 – 我們可以在不同的初始條件下多次執行 K-Means 聚類，以找到最佳輸出。

· 對噪音和異常值敏感

選擇 K

· 彎頭方法：繪製 k 的升序值與使用該 k 計算的總誤差，以查詢最小總誤差。

· 平均剪影方法：使用該 k 繪製 k 的升序值與平均剪影（同一聚類中點之間的平均距離）來查詢最大平均剪影。

分層聚類

> Single-Link Clustering

· 單鏈路：兩個群集之間的距離由兩個群集之間的最近點確定。然後將兩個最近的群集合併到一個群集中。

· 完整連結：兩個群集之間的距離由兩個群集之間的最遠點確定。然後將兩個最近的群集合併到一個群集中。

· 平均連結：兩個群集之間的距離由兩個群集之間所有點的平均值確定。然後將兩個最近的群集合併到一個群集中。

· 病房：獲取 3 箇中心點，群集 A 的中心點 A，群集 B 的中心點 B，兩個群集中所有點的中心點 X。兩個聚類之間的距離透過求和所有點到點 X 的距離，減去聚類 A 中所有點到點 A 的距離，以及聚類 B 中所有點到點 B 的距離。然後將兩個最近的群集合併到一個群集中。合併後群集中方差增加最少。

優勢：

· 生成的分層表示可以非常翔實

· 提供額外的視覺化功能（圖面圖）

· 當資料集包含真正的分層關係時特別有效

缺點：

· 對噪音和異常值敏感

· 計算密集型 O（N2）

DBSCAN

輸入：

Epsilon - 圍繞點MinPoint的搜尋距離 - 形成群集所需的最小點數

掃描所有點，並確定每個點是噪聲點、核心點還是邊界點。

優勢：

· 無需指定群集數

· 叢集形狀和尺寸的靈活性

· 能夠處理噪音和異常值

缺點：

· 可從兩個群集到達的板點首先分配給群集，因此 DBSCAN 無法保證每次執行時相同的群集。

· 難以找到不同密度的聚類。（HDBSCAN 可以解決此問題）

GMM

· 初始化 K 高斯分佈 - 可以使用 K-means 查詢初始化點，設定均值、方差和共方差。

· 軟聚類 - 查詢它所屬的群集的每個點的機率。

· 重新估計高斯 - 使用步驟 2 中的輸出，使用群集中點的加權平均值查詢新高斯的新平均值和新方差。

· 評估高斯Log可能性

· 重複步驟 2 - 步驟 4，直到日誌可能性收斂

優勢：

· 軟群集（對於資料點，可以找到其成員/多個群集的可能性）

· 群集形狀的靈活性（群集中可以包含另一個群集）

缺點：

· 對初始化值敏感

· 可能收斂到區域性最佳

· 收斂速度慢

群集驗證

· 外部索引：標記資料的評分方法調整蘭特指數

· 內部指數：無標籤資料的評分方法銀點係數

PCA

· 將輸入功能轉換為主要元件，並將 PC 用作新功能

· PC 是能夠最大化方差或最大限度地減少資訊損失的資料方向

· PC 是彼此的獨立功能

· PC 的最大數量是輸入功能的數量

· 減小尺寸，降低噪音

· 使用 PCA 查詢驅動資料模式的潛在特徵

· 使其他演算法更好地工作，因為輸入更少

隨機投影

當 PCA 太慢時，我們可以使用隨機投影來減小尺寸。透過將隨機矩陣相乘從 D 維度到 K 尺寸，並在很大程度上保持點之間的距離。

LCA

· 假定元件在統計上是獨立的

· 元件是非 Causian

(本文翻譯自Tivadar Danka的文章《Machine Learning Cheat Sheet — Unsupervised Learning》，參考：https://towardsdatascience.com/machine-learning-cheat-sheet-unsupervised-learning-d954a9247fbe)

∨ Linux 檔案目錄都是什麼鬼？

熱門排行

劇多

無監督機器學習備忘清單