Unbiased integration of single cell multi-omics data
單細胞測序技術極大的推進了研究人員對發育、衰老、疾病等過程的認知,從細胞水平能夠更好地理解基因如何影響細胞表型,進而影響個體的表型,具有重要意義。然而,目前的大部分測序技術僅能夠較好地捕獲單一組學層面的遺傳資訊,對於轉錄組、表觀組、蛋白質組等多組學的資訊往往不能同時獲得,為了得到一個細胞的多組學資訊,研究人員嘗試建立相同生物樣本不同組學資料之間的聯絡,將多個組學的資料整合到一起,更好地刻畫細胞功能以及內部的調控過程。美國安德森癌症研究中心的團隊開發bindSC,一個強大的單細胞多組學資料整合工具,該文章於2020年12月發表在bioRxiv上。
一、方法簡介
先前的計算方法主要分為兩個類別:(1)依據經驗選擇特徵基因,然後整合兩個資料集;(2)對每個資料集矩陣分別進行降維,進而進行無監督的流形對齊。以scRNA-seq和scATAC-seq資料整合為例,第一類方法透過計算每個基因內部和鄰近區域的DNA reads數目,為每個基因構建基因活性矩陣。該策略僅考慮基本的順式調控關係,而忽略了透過增強子等其他調控元件遠端調控關係,簡化甚至丟失了轉錄因子與目標靶基因之間的多因素關係。目前已有的整合策略當中,Seurat應用CCA和MNN識別錨定兩個資料集的細胞; LIGER使用iNMF來區分資料集共享的和特異的基因特徵;Harmony使用PCA將細胞投影到較低的共享維度中,並反覆迭代以刪除批處理效應。這三種方法均受到上述限制,因此無法構建一個全面、無偏的基因調控網路。第二類方法是完全無監督的、不要求先驗特徵基因的方式,例如MATCHER,然而在很大程度上依賴於以下假設——每個資料集中細胞間的特徵變異僅僅受幾乎很少的潛在變數驅動,但是在涉及分化、重程式設計、轉分化等複雜的生物學過程經常與這一假設相矛盾。
作者開發了新的計算工具bindSC(bi-order integration of single-cell data),核心演算法為bi-CCA(bi-order canonical correlation analysis),將相同生物樣本不同實驗產生的資料集(矩陣)之間建立最優的行、列比對關係,該方法以開源R包的形式釋出在https://github.com/KChen-lab/bindSC。
二、基本思想及原理
BindSC的workflow包括以下五個基本步驟(如圖1):(1)每個資料集的預處理,特徵基因選擇,無監督細胞聚類,聚類結果用於下游的分析。(2)初始化資料集之間的特徵匹配,因為兩個資料集之間的特徵大部分是不同的,需要額外的一個轉移矩陣來連線兩個資料集。(3)採用bi-CCA演算法同時捕獲矩陣行、列的相關性資訊,不斷迭代以最佳化轉移矩陣,最終得到穩定的細胞相關性與特徵相關性結果。(4)基於共享近鄰策略聯合聚類,並將類別中距離相近的細胞融合成一個大的“偽細胞”,構建偽細胞水平的多組學特徵矩陣。目前支援的組學資料型別包括轉錄組、表觀基因組、空間轉錄組、蛋白質組四個組學資訊的整合。
圖1
三、方法評估
(一)模擬資料評估
作者構建了模擬的模擬資料集,包括1000個基因、由三種“細胞型別”組成的1000個細胞(信噪比0.25),在模擬的模擬資料集中觀察bindSC的效能,依據輪廓係數、比對混合得分兩個指標與CCA、Seurat、LIGER、Harmony方法進行比較(如圖2),發現在不同的錯誤比對率(MR,Misalignment Rate)下bindSC均具有最佳效能。
圖2
(二)轉錄組+表觀遺傳組整合:腫瘤細胞系
在地塞米松處理不同時間的A549細胞係數據中評估方法效能,6005個細胞進行sci-RNAseq,3628個細胞進行sci-ATACseq,其中1429個細胞同時具有兩個組學的資料,因此作為評估過程中的金標準。圖3a上表示細胞的收集時間,圖3a下表示測序技術,灰色為sci-RNA,棕色為sci-ATAC。從輪廓係數、比對混合得分、錨定距離三個指標觀察bindSC具有最優的效能(圖3b),作者進一步比較每種方法對於TF-gene對、 cis-peak-gene對、trans-peak-gene對這三者的基於斯皮爾曼秩的相關性係數(SRCC,Spearman's Rank-order Correlation Coefficients),結果顯示bindSC具有最高的準確性(圖3c)。
圖3
(三)轉錄組+表觀遺傳組整合:小鼠視網膜細胞
使用10x Genomics ATAC + RNA kit對成年小鼠視網膜樣本進行測序,共計9383個高質量細胞,分別使用轉錄組與表觀組資料進行聚類識別細胞型別(圖4a-c),之後應用bindSC成功地將不同組學的相同細胞型別整合到了一起(圖4d-f),對於其中一類較為稀有的細胞型別(細胞丰度0.25%)採用多種方法進行10個細胞亞型間整合(圖4g-j),儘管ATAC資料集不如RNA資料集細胞註釋結果清晰,但不難發現Seurat和LIGER方法難以產生有意義的結果,Harmony只獲得了有限的幾種亞型。綜上所述,bindSC比以往的任何一種方法均具有較高的精確性。
圖4
(四)轉錄組+空間轉錄組
bindSC能夠整合sc-RNAseq資料和空間轉錄組資料,作者使用相同小鼠腦部額葉組織的SMART-Seq2資料和10x Visium空間轉錄組(ST)資料,ST資料中1072個位點,sc-RNAseq資料中14249個細胞(圖5a-b)。使用不同策略整合sc-RNAseq資料與ST資料,考慮到每個空間位點可能包含多種細胞型別,作者基於降維後維度計算機率得分以代替每個位點的細胞組成比例,計算這種細胞組成比例與sc-RNAseq真實值之間相關性,發現bindSC具有最高的相關性(圖5c,R = 0.9)。
圖5
(五)轉錄組+蛋白質組
整合蛋白質組學資料:作者使用人類骨髓細胞的CITE-seq資料(30627個細胞)以及25個抗體相關的蛋白質資料,分別進行細胞型別註釋(圖6a-b),然而僅僅依靠著25個抗體蛋白及同源基因的RNA表達水平並不能夠很好的區分細胞型別(圖6c),bindSC能夠將蛋白質資訊與RNA資訊很好的整合到一起(圖6d-e),並且具有優於其它方法的錨定距離(圖6f)。
圖6
今天的內容就到這裡啦,