長鏈非編碼RNA(lncRNA)是一類轉錄本長度超過200nt的RNA分子,它們並不編碼蛋白,而是以RNA的形式在多種層面上(表觀遺傳調控、轉錄調控以及轉錄後調控等)調控基因的表達水平。
lncRNA起初被認為是基因組轉錄的“噪音”,是RNA聚合酶II轉錄的副產物,不具有生物學功能。然而,近年來的研究表明,lncRNA參與了X染色體沉默,基因組印記以及染色質修飾,轉錄啟用,轉錄干擾,核內運輸等多種重要的調控過程,lncRNA的這些調控作用也開始引起人們廣泛的關注。哺乳動物基因組序列中4%~9%的序列產生的轉錄本是lncRNA(相應的蛋白編碼RNA的比例是1%),雖然近年來關於lncRNA的研究進展迅猛,但是絕大部分的lncRNA的功能仍然是不清楚的。
生物學功能
許多lncRNA都具有保守的二級結構,剪下形式以及亞細胞定位,這種保守性和特異性表明它們是具有功能的。但lncRNA的功能相對於microRNA和蛋白質的功能來說更加難以確定,因為目前並不能僅根據序列或者結構來推測它們的功能。根據它們在基因組上相對於蛋白編碼基因的位置,可以將其分為(1) sense, (2) antisense, (3) bidirectional, (4) intronic, (5) intergenic這5種類型。這種位置關係對於推測lncRNA的功能有很大幫助。
圖1. 根據lncRNA在基因組上的位置,可將其分為5種類型:1. sense, 2. antisense, 3. bidirectional, 4. intronic, 5. intergenic。圖中編碼RNA和非編碼RNA外顯子分本別用藍色和紅色表示。
近年來透過對已發現的lncRNA的研究表明,lncRNA能夠在多種層面調控基因的表達水平,其調控機制開始為人們所揭示(圖2)。
圖2. lncRNA的作用機制。根據今年來所發現的lncRNA的作用機制,lncRNA主要可能具有以下幾個方面的功能:1)透過在蛋白編碼基因上游啟動子區(桔)發生轉錄,干擾下游基因(藍)的表達(如酵母中的SER3基因)。2)透過抑制RNA聚合酶II或者介導染色質重構以及組蛋白修飾,影響下游基因(藍)表達(如小鼠中的p15AS)。3)透過與蛋白編碼基因的轉錄本形成互補雙鏈(紫),進而干擾mRNA的剪下,從而產生不同的剪下形式。4)透過與蛋白編碼基因的轉錄本形成互補雙鏈(紫),進一步在Dicer酶作用下產生內源性的siRNA,調控基因的表達水平。5)透過結合到特定蛋白質上,lncRNA轉錄本(綠)能夠調節相應蛋白的活性。6)作為結構組分與蛋白質形成核酸蛋白質複合體。7)透過結合到特定蛋白上,改變該蛋白的胞質定位。8)作為小分子RNA,如miRNA,piRNA的前體分子轉錄(Jeremy E. Wilusz et al, 2009, Genes Dev.)。
一般來說,lncRNA主要從以下三種層面實現對基因表達的調控:
1. 表觀遺傳學調控
lncRNA招募染色質重構複合體到特定位點進而介導相關基因的表達沉默。例如來源於HOXC基因座的lncRNA HOTAIR,它能夠招募染色質重構複合體PRC2並將其定位到HOXD位點,進而誘導HOXD位點的表觀遺傳學沉默。同樣,Xist,Air,Kcnq1ot1這些lncRNA都能夠透過招募相應的重構複合體,利用其中的甲基轉移酶如Ezh2或者G9a等實現表觀遺傳學沉默。
2. 轉錄調控
lncRNA能夠透過多種機制在轉錄水平實現對基因表達的沉默,表現在如下幾個方面:lncRNA的轉錄能夠干擾臨近基因的表達。例如在酵母中,SER3基因會受到其上游lncRNA SRG1的轉錄的干擾;lncRNA能夠透過封阻啟動子區域來干擾基因的表達。例如,DHFR上游的一個lncRNA能夠和DHFR的啟動子區域形成RNA-DNA3螺旋結構,進而抑制轉錄因子TFIID的結合,從而抑制DHFR的基因表達;lncRNA能夠與RNA結合蛋白作用,並將其定位到基因啟動子區從而調控基因的表達。例如,CCND1啟動子上游一個lncRNA能夠調節RNA結合蛋白TLS的活性,進而調控CCND1的表達;lncRNA能夠調節轉錄因子的活性,裡例如lncRNA Evf2能夠與轉錄因子Dlx2形成轉錄複合體從而啟用Dlx6的表達;lncRNA也能夠透過調節基本轉錄因子來實現調控基因的表達。例如,Alu RNA能夠透過抑制RNA聚合酶II來實現廣譜的基因抑制。
3. 轉錄後調控
lncRNA能夠在轉錄後水平透過與mNRA形成雙鏈的形式調控基因的表達。例如,Zeb2 antisense RNA能夠和Zeb2 mRNA內含子5’剪下位點區域形成雙鏈,從而抑制該內含子的剪下。而該區域含有對於Zeb2蛋白表達所必須的核糖體結合位點,Zeb2 antisense RNA透過這種方式,能夠提高Zeb2蛋白的表達量。
LncRNA與疾病
大量的研究表明,在腫瘤細胞中,某些特定的lncRNA的表達水平會發生改變。這種表達水平的變化能夠作為癌症診斷的標誌物(有時是非常靈敏的診斷標誌物,如前列腺癌中的DD3,表1)和潛在的藥物靶點(圖3)。
圖3 近來在對阿茲海默症的研究中找到的一個lncRNA,BACE1AS,它編碼β分泌酶基因的反義鏈RNA。β分泌酶能夠產生β澱粉樣蛋白,後者的累積是阿茲海默症的主要誘因。作為BACE1反義鏈的BACE1AS能夠在各種外界壓力刺激條件下,增加BACE1 mRNA的穩定性(透過防止BACE1受到核酸酶降解的方式),從而導致更多的β澱粉樣蛋白累積,並促進BACE1AS的表達,這個正反饋迴圈將會加速阿茲海默症的發展。但是,當使用了特異性針對BACE1AS的siRNA降低BACE1AS的表達水平後,β澱粉樣蛋白的表達水平也同時下降了,這表明BACE1AS是一個非常理想的治療阿茲海默症的藥物靶點(Mohammad Ali Faghihi, et al. 2008. Nature Medicine)。
表1. 與疾病相關的一些lncRNA(Kannanganattu V. Prasanth, et al. 2007. Genes Dev.)
展望生物通
相對於蛋白編碼序列以及小分子RNA,lncRNA的研究還僅僅只是處於起步階段,其功能與調控機制仍有待進一步闡明。目前研究成果所展現出的lncRNA繁多的分子生物學功能,如調節轉錄模式,調控蛋白活性,改變RNA的剪下模式等等,為人們提出了一個從未涉足的調控領域。
當下lncRNA的主要研究方向仍然是透過原位雜交技術,過表達技術,siRNA介導的基因沉默技術來發現更多新的lncRNA,為目前的調控模式提供更多的支援和完善。這種傳統的手段固然精確,然而卻缺乏效率,隨著更多高通量篩查技術的發展,如Microarray晶片雜交技術,新一代高通量測序技術,結合生物資訊學的預測工具,人們將能夠更快更有效率的發現那些具有重要調控功能的lncRNA。