類透過把目標資料放入少數相對同源的組或“類”(cluster)裡。分析表達資料,(1)透過一系列的檢測將待測的一組基因的變異標準化,然後成對比較線性協方差。(2)透過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchical clustering)方法。這種聚類亦可擴充套件到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean “距離”中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,透過重複再分配類成員來使“類”內分散度最小化的方法。 聚類方法有兩個顯著的侷限:首先,要聚類結果要明確就需分離度很好(well-separated)的資料。幾乎所有現存的演算法都是從互相區別的不重疊的類資料中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個資料部分將產生單一的資訊。為解釋因不同演算法使同樣資料產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度透過序列比較來指導聚類解釋。 第二個侷限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關係。因為只是成對的線性比較,大大減少發現表達型別關係的計算量,但忽視了生物系統多因素和非線性的特點。 從統計學的觀點看,聚類分析是透過資料建模簡化資料的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。 從機器學習的角度講,簇相當於隱藏模式。聚類是搜尋簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練例項,需要由聚類學習演算法自動確定標記,而分類學習的例項或資料物件有類別標記。聚類是觀察式學習,而不是示例式的學習。 從實際應用的角度看,聚類分析是資料探勘的主要任務之一。就資料探勘功能而言,聚類能夠作為一個獨立的工具獲得資料的分佈狀況,觀察每一簇資料的特徵,集中對特定的聚簇集合作進一步地分析。 聚類分析還可以作為其他資料探勘任務(如分類、關聯規則)的預處理步驟。 資料探勘領域主要研究面向大型資料庫、資料倉庫的高效實用的聚類分析演算法。 聚類分析是資料探勘中的一個很活躍的研究領域,並提出了許多聚類演算法。 這些演算法可以被分為劃分方法、層次方法、基於密度方法、基於網格方法和 基於模型方法。 1 劃分方法(PAM:PArtitioning method) 首先建立k個劃分,k為要建立的劃分個數;然後利用一個迴圈 定位技術透過將物件從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括: k-means,k-medoids,CLARA(Clustering LARge Application), CLARANS(Clustering Large Application based upon RANdomized Search). FCM 2 層次方法(hierarchical method) 建立一個層次以分解給定的資料集。該方法可以分為自上 而下(分解)和自下而上(合併)兩種操作方式。為彌補分解與合併的不足,層次合 並經常要與其它聚類方法相結合,如迴圈定位。典型的這類方法包括: 第一個是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結構對物件集進行劃分;然後再利 用其它聚類方法對這些聚類進行最佳化。 第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表物件來表示相應聚類;然後對各聚類按照指定 量(向聚類中心)進行收縮。 第三個是ROCK方法,它利用聚類間的連線進行聚類合併。 最後一個CHEMALOEN,它則是在層次聚類時構造動態模型。 3 基於密度方法,根據密度完成物件的聚類。它根據物件周圍的密度(如 DBSCAN)不斷增長聚類。典型的基於密度方法包括: DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法透過不斷生長足夠高密 度區域來進行聚類;它能從含有噪聲的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義 為一組“密度連線”的點集。 OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一 個聚類,而是為自動互動的聚類分析計算出一個增強聚類順序。。 4 基於網格方法,首先將物件空間劃分為有限個單元以構成網格結構;然後利 用網格結構完成聚類。 STING(STatistical INformation Grid) 就是一個利用網格單元儲存的統計資訊進行基 於網格聚類的方法。 CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方 法。 5 基於模型方法,它假設每個聚類的模型並發現適合相應模型的資料。典型的 基於模型方法包括: 統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入物件是採 用符號量(屬性-值)對來加以描述的。採用分類樹的形式來建立 一個層次聚類。 CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚 類。它為每個結點中的每個屬性儲存相應的連續正態分佈(均值與方差);並利 用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值) 和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。 因此它們都不適合對大資料庫進行聚類處理.
類透過把目標資料放入少數相對同源的組或“類”(cluster)裡。分析表達資料,(1)透過一系列的檢測將待測的一組基因的變異標準化,然後成對比較線性協方差。(2)透過把用最緊密關聯的譜來放基因進行樣本聚類,例如用簡單的層級聚類(hierarchical clustering)方法。這種聚類亦可擴充套件到每個實驗樣本,利用一組基因總的線性相關進行聚類。(3)多維等級分析(multidimensional scaling analysis,MDS)是一種在二維Euclidean “距離”中顯示實驗樣本相關的大約程度。(4)K-means方法聚類,透過重複再分配類成員來使“類”內分散度最小化的方法。 聚類方法有兩個顯著的侷限:首先,要聚類結果要明確就需分離度很好(well-separated)的資料。幾乎所有現存的演算法都是從互相區別的不重疊的類資料中產生同樣的聚類。但是,如果類是擴散且互相滲透,那麼每種演算法的的結果將有點不同。結果,每種演算法界定的邊界不清,每種聚類演算法得到各自的最適結果,每個資料部分將產生單一的資訊。為解釋因不同演算法使同樣資料產生不同結果,必須注意判斷不同的方式。對遺傳學家來說,正確解釋來自任一演算法的聚類內容的實際結果是困難的(特別是邊界)。最終,將需要經驗可信度透過序列比較來指導聚類解釋。 第二個侷限由線性相關產生。上述的所有聚類方法分析的僅是簡單的一對一的關係。因為只是成對的線性比較,大大減少發現表達型別關係的計算量,但忽視了生物系統多因素和非線性的特點。 從統計學的觀點看,聚類分析是透過資料建模簡化資料的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。 從機器學習的角度講,簇相當於隱藏模式。聚類是搜尋簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練例項,需要由聚類學習演算法自動確定標記,而分類學習的例項或資料物件有類別標記。聚類是觀察式學習,而不是示例式的學習。 從實際應用的角度看,聚類分析是資料探勘的主要任務之一。就資料探勘功能而言,聚類能夠作為一個獨立的工具獲得資料的分佈狀況,觀察每一簇資料的特徵,集中對特定的聚簇集合作進一步地分析。 聚類分析還可以作為其他資料探勘任務(如分類、關聯規則)的預處理步驟。 資料探勘領域主要研究面向大型資料庫、資料倉庫的高效實用的聚類分析演算法。 聚類分析是資料探勘中的一個很活躍的研究領域,並提出了許多聚類演算法。 這些演算法可以被分為劃分方法、層次方法、基於密度方法、基於網格方法和 基於模型方法。 1 劃分方法(PAM:PArtitioning method) 首先建立k個劃分,k為要建立的劃分個數;然後利用一個迴圈 定位技術透過將物件從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括: k-means,k-medoids,CLARA(Clustering LARge Application), CLARANS(Clustering Large Application based upon RANdomized Search). FCM 2 層次方法(hierarchical method) 建立一個層次以分解給定的資料集。該方法可以分為自上 而下(分解)和自下而上(合併)兩種操作方式。為彌補分解與合併的不足,層次合 並經常要與其它聚類方法相結合,如迴圈定位。典型的這類方法包括: 第一個是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結構對物件集進行劃分;然後再利 用其它聚類方法對這些聚類進行最佳化。 第二個是CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表物件來表示相應聚類;然後對各聚類按照指定 量(向聚類中心)進行收縮。 第三個是ROCK方法,它利用聚類間的連線進行聚類合併。 最後一個CHEMALOEN,它則是在層次聚類時構造動態模型。 3 基於密度方法,根據密度完成物件的聚類。它根據物件周圍的密度(如 DBSCAN)不斷增長聚類。典型的基於密度方法包括: DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法透過不斷生長足夠高密 度區域來進行聚類;它能從含有噪聲的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義 為一組“密度連線”的點集。 OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一 個聚類,而是為自動互動的聚類分析計算出一個增強聚類順序。。 4 基於網格方法,首先將物件空間劃分為有限個單元以構成網格結構;然後利 用網格結構完成聚類。 STING(STatistical INformation Grid) 就是一個利用網格單元儲存的統計資訊進行基 於網格聚類的方法。 CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方 法。 5 基於模型方法,它假設每個聚類的模型並發現適合相應模型的資料。典型的 基於模型方法包括: 統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入物件是採 用符號量(屬性-值)對來加以描述的。採用分類樹的形式來建立 一個層次聚類。 CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚 類。它為每個結點中的每個屬性儲存相應的連續正態分佈(均值與方差);並利 用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值) 和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。 因此它們都不適合對大資料庫進行聚類處理.