首頁>科學>

責編 | 兮在單細胞RNA測序(scRNA-seq)實驗中,如果一個反應體(reaction volumn)恰好包含了兩個細胞,就會形成雙細胞(doublets)。由於雙細胞並不是真正的細胞,它們的存在會嚴重干擾對單細胞RNA測序資料的分析。近年來,研究人員開發了一些計算方法來識別單細胞RNA測序資料中的雙細胞。但是,該領域內缺少對這些方法的全面評測研究,從而使下游使用者難以根據自身需求選擇合適的識別方法。

近日,加州大學洛杉磯分校(UCLA)的李婧翌團隊在 Cell Systems 雜誌發表了題為 Benchmarking computational doublet-detection methods for single-cell RNA sequencing data 的論文【1】首次對單細胞RNA測序領域內的9種識別雙細胞的計算方法進行了系統性的評測研究。作者收集整理了16套包含雙細胞實驗標記的真實資料,並使用該團隊先前開發的scDesign軟體【2】和另一款領域內常用的Splatter軟體【3】 產生了了112套模擬資料。基於以上資料集,作者對雙細胞識別方法進行了多方面的評估比較:在不同實驗條件下的雙細胞識別準確率,對多種下游分析(差異表達基因的識別、高變化基因的識別、細胞聚類、細胞分化路徑推斷)的影響,以及計算效率。該研究發現,現有的識別方法在不同的應用環境下表現出較大的差異性。總體而言,DoubletFinder 【4】方法的識別準確率最高,而cxds【5】方法的計算效率最好。

在該研究中,作者首先將9種雙細胞識別方法應用於16套真實單細胞RNA測序資料,透過計算AUPRC和AURPC來比較不同方法的識別準確率。其次,作者利用模擬模擬資料對識別方法在不同的雙細胞比率,測序深度,細胞型別數量,以及細胞型別間差異程度下的識別準確率表現進行了比較。再次,作者利用模擬模擬資料探討了雙細胞識別方法對四種下遊分析的影響,包括差異表達基因(DE gene)識別,高度變化基因(highly varaible gene)識別,細胞聚類(cell clustering),以及細胞分化路徑推斷(cell trajectory inference)等。隨後,作者剖析了不同的雙細胞識別方法在平行計算下的表現,揭示出其識別的準確率會隨並行數量的增加而降低。最後,作者比較了雙細胞識別方法的計算速度,可擴充套件性,穩定性,並對不同方法的軟體開發質量和使用者友好程度進行了量化分析。

加州大學洛杉磯分校的李婧翌副教授是該論文的通訊作者,博士生席楠是該論文的第一作者。在該論文發表後,兩位作者受 Cell 子刊 STAR Protocol 的邀請,撰寫了題為 Protocol for Benchmarking Computational Doublet-Detection Methods in Single-Cell RNA Sequencing Data Analysis 的論文【6】,對先前研究中使用的資料集,評測方法,以及圖形化展示等技術細節進行了歸納總結,提出了評測雙細胞識別計算方法的標準化協議流程。作者在論文中將該協議流程成功應用於一個新近發表的雙細胞識別方法scDblFinder【7】,並發現該方法同時擁有較好的雙細胞識別準確率和較高的計算效率。

李婧翌團隊的以上兩篇論文是單細胞RNA測序領域中對雙細胞識別計算方法進行的首次系統性評測研究,對不同方法的優劣進行了客觀全面的分析評價,為一線實驗研究人員選擇合適的方法提供了有力的依據。同時,該項研究的成果為今後雙細胞識別計算方法的開發提供了富有價值的啟示。

原文連結:

[1]https://www.sciencedirect.com/science/article/abs/pii/S2405471220304592?dgcid=author

[2]https://arxiv.org/abs/2101.08860

製版人:SY

參考文獻

1. Xi, N. M. & Li, J. J. Benchmarking Computational Doublet-Detection Methods for Single-Cell RNA Sequencing Data. Cell Syst (2020) doi:10.1016/j.cels.2020.11.008.

2. Li, W. V. & Li, J. J. A statistical simulator scDesign for rational scRNA-seq experimental design. Bioinformatics 35, i41–i50 (2019).

3. Zappia, L., Phipson, B. & Oshlack, A. Splatter: simulation of single-cell RNA sequencing data. Genome Biol. 18, 174 (2017).

4. McGinnis, C. S., Murrow, L. M. & Gartner, Z. J. DoubletFinder: Doublet Detection in Single-Cell RNA Sequencing Data Using Artificial Nearest Neighbors.Cell Syst 8, 329–337.e4 (2019).

5. Bais, A. S. & Kostka, D. scds: computational annotation of doublets in single-cell RNA sequencing data. Bioinformatics (2019) doi:10.1093/bioinformatics/btz698.

6. Xi, N. M. & Li, J. J. Protocol for Benchmarking Computational Doublet-Detection Methods in Single-Cell RNA Sequencing Data Analysis. arXiv [q-bio.GN] (2021).

7. Germain, P.-L., Sonrel, A. & Robinson, M. D. pipeComp, a general framework for the evaluation of computational pipelines, reveals performant single cell RNA-seq preprocessing tools. Genome Biol. 21, 227 (2020).

22
最新評論
  • mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶
  • 人類真的可以在液體裡面呼吸嗎?科學家:可以