生信分析單細胞多組學資料無偏整合新策略

首頁>科學>事事聊科研2021-01-25 09:21

生信分析單細胞多組學資料無偏整合新策略

Unbiased integration of single cell multi-omics data

單細胞測序技術極大的推進了研究人員對發育、衰老、疾病等過程的認知，從細胞水平能夠更好地理解基因如何影響細胞表型，進而影響個體的表型，具有重要意義。然而，目前的大部分測序技術僅能夠較好地捕獲單一組學層面的遺傳資訊，對於轉錄組、表觀組、蛋白質組等多組學的資訊往往不能同時獲得，為了得到一個細胞的多組學資訊，研究人員嘗試建立相同生物樣本不同組學資料之間的聯絡，將多個組學的資料整合到一起，更好地刻畫細胞功能以及內部的調控過程。美國安德森癌症研究中心的團隊開發bindSC，一個強大的單細胞多組學資料整合工具，該文章於2020年12月發表在bioRxiv上。

一、方法簡介

先前的計算方法主要分為兩個類別：（1）依據經驗選擇特徵基因，然後整合兩個資料集；（2）對每個資料集矩陣分別進行降維，進而進行無監督的流形對齊。以scRNA-seq和scATAC-seq資料整合為例，第一類方法透過計算每個基因內部和鄰近區域的DNA reads數目，為每個基因構建基因活性矩陣。該策略僅考慮基本的順式調控關係，而忽略了透過增強子等其他調控元件遠端調控關係，簡化甚至丟失了轉錄因子與目標靶基因之間的多因素關係。目前已有的整合策略當中，Seurat應用CCA和MNN識別錨定兩個資料集的細胞; LIGER使用iNMF來區分資料集共享的和特異的基因特徵；Harmony使用PCA將細胞投影到較低的共享維度中，並反覆迭代以刪除批處理效應。這三種方法均受到上述限制，因此無法構建一個全面、無偏的基因調控網路。第二類方法是完全無監督的、不要求先驗特徵基因的方式，例如MATCHER，然而在很大程度上依賴於以下假設——每個資料集中細胞間的特徵變異僅僅受幾乎很少的潛在變數驅動，但是在涉及分化、重程式設計、轉分化等複雜的生物學過程經常與這一假設相矛盾。

作者開發了新的計算工具bindSC（bi-order integration of single-cell data），核心演算法為bi-CCA（bi-order canonical correlation analysis），將相同生物樣本不同實驗產生的資料集（矩陣）之間建立最優的行、列比對關係，該方法以開源R包的形式釋出在https://github.com/KChen-lab/bindSC。

二、基本思想及原理

BindSC的workflow包括以下五個基本步驟（如圖1）：（1）每個資料集的預處理，特徵基因選擇，無監督細胞聚類，聚類結果用於下游的分析。（2）初始化資料集之間的特徵匹配，因為兩個資料集之間的特徵大部分是不同的，需要額外的一個轉移矩陣來連線兩個資料集。（3）採用bi-CCA演算法同時捕獲矩陣行、列的相關性資訊，不斷迭代以最佳化轉移矩陣，最終得到穩定的細胞相關性與特徵相關性結果。（4）基於共享近鄰策略聯合聚類，並將類別中距離相近的細胞融合成一個大的“偽細胞”，構建偽細胞水平的多組學特徵矩陣。目前支援的組學資料型別包括轉錄組、表觀基因組、空間轉錄組、蛋白質組四個組學資訊的整合。

圖1

三、方法評估

（一）模擬資料評估

作者構建了模擬的模擬資料集，包括1000個基因、由三種“細胞型別”組成的1000個細胞（信噪比0.25），在模擬的模擬資料集中觀察bindSC的效能，依據輪廓係數、比對混合得分兩個指標與CCA、Seurat、LIGER、Harmony方法進行比較（如圖2），發現在不同的錯誤比對率（MR，Misalignment Rate）下bindSC均具有最佳效能。

圖2

（二）轉錄組+表觀遺傳組整合：腫瘤細胞系

在地塞米松處理不同時間的A549細胞係數據中評估方法效能，6005個細胞進行sci-RNAseq，3628個細胞進行sci-ATACseq，其中1429個細胞同時具有兩個組學的資料，因此作為評估過程中的金標準。圖3a上表示細胞的收集時間，圖3a下表示測序技術，灰色為sci-RNA，棕色為sci-ATAC。從輪廓係數、比對混合得分、錨定距離三個指標觀察bindSC具有最優的效能（圖3b），作者進一步比較每種方法對於TF-gene對、 cis-peak-gene對、trans-peak-gene對這三者的基於斯皮爾曼秩的相關性係數（SRCC，Spearman's Rank-order Correlation Coefficients），結果顯示bindSC具有最高的準確性（圖3c）。

圖3

（三）轉錄組+表觀遺傳組整合：小鼠視網膜細胞

使用10x Genomics ATAC + RNA kit對成年小鼠視網膜樣本進行測序，共計9383個高質量細胞，分別使用轉錄組與表觀組資料進行聚類識別細胞型別（圖4a-c），之後應用bindSC成功地將不同組學的相同細胞型別整合到了一起（圖4d-f），對於其中一類較為稀有的細胞型別（細胞丰度0.25%）採用多種方法進行10個細胞亞型間整合（圖4g-j），儘管ATAC資料集不如RNA資料集細胞註釋結果清晰，但不難發現Seurat和LIGER方法難以產生有意義的結果，Harmony只獲得了有限的幾種亞型。綜上所述，bindSC比以往的任何一種方法均具有較高的精確性。

圖4

（四）轉錄組+空間轉錄組

bindSC能夠整合sc-RNAseq資料和空間轉錄組資料，作者使用相同小鼠腦部額葉組織的SMART-Seq2資料和10x Visium空間轉錄組（ST）資料，ST資料中1072個位點，sc-RNAseq資料中14249個細胞（圖5a-b）。使用不同策略整合sc-RNAseq資料與ST資料，考慮到每個空間位點可能包含多種細胞型別，作者基於降維後維度計算機率得分以代替每個位點的細胞組成比例，計算這種細胞組成比例與sc-RNAseq真實值之間相關性，發現bindSC具有最高的相關性（圖5c，R = 0.9）。

圖5

（五）轉錄組+蛋白質組

整合蛋白質組學資料：作者使用人類骨髓細胞的CITE-seq資料（30627個細胞）以及25個抗體相關的蛋白質資料，分別進行細胞型別註釋（圖6a-b），然而僅僅依靠著25個抗體蛋白及同源基因的RNA表達水平並不能夠很好的區分細胞型別（圖6c），bindSC能夠將蛋白質資訊與RNA資訊很好的整合到一起（圖6d-e），並且具有優於其它方法的錨定距離（圖6f）。

圖6

今天的內容就到這裡啦，

最新評論

∧ mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶

∨ 礦物——碳酸鹽

熱門排行

劇多

生信分析 單細胞多組學資料無偏整合新策略

生信分析單細胞多組學資料無偏整合新策略