首頁>科學>

責編 | 酶美

DNA甲基化修飾 (DNA methylation) 是一類不改變DNA序列的表觀遺傳修飾 (epigenetic modification)。在人類基因組中,DNA甲基化主要發生在CpG位點中的胞嘧啶 (cytosine) 上,具有抑制轉錄表達,參與基因組印記 (genomic imprinting) 以及調控染色體結構的作用。近幾十年來,基於啟動子附近CpG 島 (promoter CpG island) 的甲基化研究揭示出甲基化CpG(mCpG) 經 methyl-CpG-binding domain (MBD) 蛋白家族讀取後能夠招募組蛋白去乙醯化酶(histone deacetylase complexes) 來抑制基因的表達。儘管大量實驗表明啟動子附近CpG 島的甲基化水平與基因表達水平應具有很強的負相關性,但是基於甲基化測序技術的研究卻發現兩者之間負相關性相對較弱。

美國加州大學爾灣分校李蔚教授團隊,徐建鋒史偈君等研究人員於近日在Nature Communications雜誌發表文章Cellular Heterogeneity-Adjusted cLonal Methylation (CHALM) improves prediction of gene expression揭示了測序資料中觀察到的甲基化水平和基因表達水平的弱相關性是由於傳統的甲基化水平計算方法忽略了用於測序的細胞或組織樣本中的細胞異質性(cellular heterogeneity),並開發出校正細胞異質性的CHALM演算法,能夠更加靈敏地在不同的生物學過程中發現生物功能相關的差異甲基化基因。

在甲基化測序資料的分析過程中,為了計算某個基因區域 (例如啟動子區域)的甲基化水平,傳統方法通常會先計算該區域內所有CpG位點的甲基化值然後簡單地取平均值來代表該區域的甲基化程度的高低。該方法忽視了基因測序所用的細胞或組織樣本中的細胞異質性,即單細胞之間在某一位點的甲基化狀態有可能會具有差異。例如,在計算一個具有五個CpG位點的啟動子區域的甲基化時,儘管樣本a(圖1a;一個細胞被完全甲基化,另外四個細胞無甲基化)和樣本b(圖1b;所有細胞均有一個CpG位點發生甲基化)具有不同的甲基化模式,傳統方法仍會計算出相同的結果。但是由於很多研究表明單個CpG位點的甲基化足以結合MBD蛋白家族成員來抑制轉錄表達,因此樣本b相比於樣本a應有較低的轉錄水平。

圖1. 計算基因區域甲基化水平的傳統演算法和CHALM演算法之間的比較

在本項工作中,研究人員將具有至少一個CpG位點被甲基化的測序片段和所有位點均未被甲基化的測序片段分別定義為‘被甲基化的測序片段’ (methylated read) 和‘未被甲基化的測序片段’ (unmethylated read),並進一步開發CHALM演算法,計算比對到某個基因區域的‘被甲基化的測序片段’的比例來代表其甲基化程度。根據CHALM演算法,樣本b相比於樣本a具有明顯較高的甲基化水平(圖1)。為了證實CHALM演算法的優越性,研究人員以CD3 primary細胞為例,展示出啟動子的CHALM甲基化水平與基因的轉錄水平或者H3K4me3的組蛋白修飾水平的負相關性與傳統方法相比顯著提高。尤其對於低甲基化水平的基因來說,傳統甲基化與轉錄水平的相關性趨近於零,而使用CHALM演算法則能觀測到兩者之間的斯皮爾曼相關係數 (Spearman’s Rank-Order Correlation) 接近於 -0.5 (圖2)。該研究還進一步利用卷積神經網路模型 (Convolutional neural network) 從甲基化測序片段資料中預測基因轉錄水平並且證明了細胞異質性資訊對於基因表達的預測至關重要。最後,研究人員展示了在不同生物學過程中(癌症發生過程,衰老過程以及阿茲海默症),CHALM演算法相比於傳統方法可以發現更多生物功能相關的差異甲基化基因,因此有利於揭示出DNA甲基化在不同生物過程中扮演的角色以及尋找更加可靠的疾病相關的甲基化標誌物。

文章的第一作者為徐建鋒博士和史偈君博士,Jean-Pierre Issa教授、蘇建中教授和李蔚教授為本文的共同通訊作者。

原文連結:

https://www.nature.com/articles/s41467-020-20492-7

16
最新評論
  • mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶
  • 曼德拉效應是平行宇宙造成的嗎?