回覆列表
  • 1 # 使用者7389307437145

    基因組註釋主要包括四個研究方向:重複序列的識別;非編碼RNA的預測;基因結構預測和基因功能註釋。我們將分別對這四個領域進行闡述。

    1:重複序列的識別。

    重複序列的研究背景和意義:重複序列可分為串聯重複序列(Tendam repeat)和散在重複序列(Interpersed repeat)兩大類。其中串聯重複序列包括有微衛星序列,小衛星序列等等;散在重複序列又稱轉座子元件,包括以DNA-DNA方式轉座的DNA轉座子和反轉錄轉座子(retrotransposon)。常見的反轉錄轉座子類別有LTR,LINE和SINE等。

    重複序列識別的發展現狀:目前,識別重複序列和轉座子的方法為序列比對和從頭預測兩類。序列比對方法一般採用Repeatmasker軟體,識別與已知重複序列相似的序列,並對其進行分類。常用Repbase重複序列資料庫。從頭預測方法則是利用重複序列或轉座子自身的序列或結構特徵構建從頭預測演算法或軟體對序列進行識別。從頭預測方法的優點在於能夠根據轉座子元件自身的結構特徵進行預測,不依賴於已有的轉座子資料庫,能夠發現未知的轉座子元件。常見的從頭預測方法有Recon,Piler,Repeatscout,LTR-finder,ReAS等等。

    重複序列識別的研究內容:獲得組裝好的基因組序列後,我們首先預測基因組中的重複序列和轉座子元件。一方面,我們採用RepeatScout、LTR-finder、Tendem Repeat Finder、Repeatmoderler、Piler等從頭預測軟體預測重複序列。為了獲得從頭預測方法得到的重複序列的類別資訊,我們把這些序列與Repbase資料庫比對,將能夠歸類的重複序列進行分類。另一方面,我們利用Repeatmasker識別與已知重複序列相似的重複序列或蛋白質序列。透過構建Repbase資料庫在DNA水平和蛋白質水平的重複序列,Repeatmasker能夠分別識別在DNA水平和蛋白質水平重複的序列,提高了識別率。

    重複序列識別的關鍵技術難點:

    1):第二代測序技術測基因組,有成本低、速度快等優點。但是由於目前產生的讀長(reads)較短。由於基因組序列採用kmer演算法進行組裝,高度相似的重複序列可能會被壓縮到一起,影響對後續的重複序列識別。

    2):某些高度重複的序列用現有的組裝方法難以組裝出來,成為未組裝reads(unassembled reads)。有必要同時分析未組裝reads以得到更為完整的重複序列分佈圖。之前,華大已開發了ReAS軟體,專門用於識別未組裝reads中的重複序列。但該軟體目前只能處理傳統測序技術(如sanger測序)生成的較長片段的reads,需要進一步改進方可用於分析第二代測序技術得到的reads。同時,未組裝的短片段reads重複度更高,識別其重複區域具有較大難度。

    重複序列識別的研究方向:

    1):整合現有的重複序列預測方法,對組裝好的基因組序列進行分析。

    2):綜合考慮並結合短序列組裝策略,校正重複序列識別的結果。

    3):開發識別未組裝reads重複序列的演算法和流程並構建一致性序列。

    2:非編碼RNA序列的預測。

    非編碼RNA預測的研究背景和意義:非編碼RNA,指的是不被翻譯成蛋白質的RNA,如tRNA, rRNA等,這些RNA不被翻譯成蛋白質,但是具有重要的生物學功能。miRNA結合其靶向基因的mRNA序列結合,將mRNA降解或抑制其翻譯成蛋白質,具有沉默基因的功能。tRNA (轉運RNA)攜帶氨基酸進入核糖體,使之在mRNA指導下合成蛋白質。rRNA(核糖體RNA)與蛋白質結合形成核糖體,其功能是作為mRNA的支架,提供mRNA翻譯成蛋白質的場所。snRNA(小核RNA)主要參與RNA前體的加工過程,是RNA剪下體的主要成分。

    非編碼RNA預測的發展現狀:由於ncRNA種類繁多,特徵各異,缺少編碼蛋白質的基因所具有的典型特徵,現有的ncRNA預測軟體一般專注於搜尋單一種類的ncRNA,如tRNAScan-SE 搜尋tRNA、snoScan 搜尋帶C/D盒的snoRNAs、SnoGps 搜尋帶H/ACA 盒的snoRNAs、mirScan 搜尋microRNA等等。Sanger實驗室開發了Infernal軟體,建立了1600多個RNA家族,並對每個家族建立了一致性二級結構和協方差模型,形成了Rfam資料庫。採用Rfam資料庫中的每個RNA的協方差模型,結合Infernal軟體可以預測出已有RNA家族的新成員。Rfam/Infernal方法應用廣泛,可以預測各種RNA家族成員,但是特異性較差。我們建議:如果有更好的專門預測某一類非編碼RNA的軟體,那麼採用該軟體進行預測;否則,使用Rfam/Infernal流程。

    非編碼RNA預測的研究內容:利用Rfam家族的協方差模型,我們採用Rfam自帶的Infernal軟體預測miRNA和snRNA序列。由於rRNA的保守性很強,為此我們用序列比對已知的rRNA序列,識別基因組中的rRNA序列。tRNAscan-SE工具中綜合了多個識別和分析程式,透過分析啟動子元件的保守序列模式、tRNA二級結構的分析、轉錄控制元件分析和除去絕大多數假陽性的篩選過程,據稱能識別99%的真tRNA基因。

    非編碼RNA預測中擬解決的關鍵技術難點:

    識別非編碼RNA的假基因:基因組中很多序列由非編碼RNA基因複製而來,與非編碼RNA基因序列相似,但不具有非編碼RNA的功能。目前我們採用的非編碼RNA序列的預測方法都是基於序列比對和結構預測,不能夠很好的去除這類非編碼RNA的假基因。針對這個問題,我們考慮結合RNA表達資訊如RNA-seq資料進行篩選。

    非編碼RNA預測的研究方向:

    1):專門檢測小片段RNA序列的方法現在已經得到廣泛應用,利用小片段RNA序列資料進行非編碼RNA的預測是我們的重要研究方向。

    2):開發miRNA靶向基因預測流程:miRNA透過調控其靶向基因的mRNA穩定性或翻譯來控制生命活動的程序。預測miRNA靶向基因能夠給我們研究miRNA功能帶來提示。由於miRNA在動物和植物中對靶向基因的調控機制差別較大,我們建議對動物和植物分別建立靶向基因預測流程,提高預測準確度。

    3:基因結構預測。

    基因結構預測的研究背景和意義:透過基因結構預測,我們能夠獲得基因組詳細的基因分佈和結構資訊,也將為功能註釋和進化分析工作提供重要的原料。基因結構預測包括預測基因組中的基因位點、開放性閱讀框架(ORF)、翻譯起始位點和終止位點、內含子和外顯子區域、啟動子、可變剪下位點以及蛋白質編碼序列等等。

    基因結構預測的發展現狀: 原核生物基因的各種訊號位點(如啟動子和終止子訊號位點)特異性較強且容易識別,因此相應的基因預測方法已經基本成熟。Glimmer是應用最為廣泛的原核生物基因結構預測軟體,準確度高。而真核生物的基因預測工作的難度則大為增加。首先,真核生物中的啟動子和終止子等訊號位點更為複雜,難以識別。其次,真核生物中廣泛存在可變剪下現象,使外顯子和內含子的定位更為困難。因此,預測真核生物的基因結構需要運用更為複雜的演算法,常用的有隱馬爾科夫模型等。常用的軟體有Genscan、SNAP、GeneMark、Twinscan等。

    基因結構預測的研究內容:基因結構預測主要透過序列比對結合從頭預測方法進行。序列比對方法採用blat和pasa等比對方法,將基因組序列與外部資料進行比對,以找到可能的基因位置資訊。常用的資料包括物種自身或其近緣物種的蛋白質序列、EST序列、全長cDNA序列、unigene序列等等。這種方法對資料的依賴性很高,並且在選擇資料的同時要充分考慮到物種之間的親緣關係和進化距離。基因從頭預測方法則是透過搜尋基因組中的重要訊號位點進行的。常用的軟體有Genscan、SNAP、Augustus、Glimmer、GlimmerHMM等等。同時採用多種方法進行基因預測將產生眾多結果,因此最後需要對結果進行整合以得到基因的一致性序列。常用軟體有Glean,EVM等。

    基因結構預測中擬解決的關鍵技術難點:

    目前,真核生物的基因結構預測方法仍有較大改進空間,主要面臨以下的技術難點。

    1):如何利用現有的資料和演算法,更好地識別基因的可變性剪下位點。

    2):隨著測序工作的進展,許多目前研究較少的物種也將提上測序日程。大多基因結構的從頭預測演算法需要預先訓練預測引數。現有資源和資料稀缺的物種將很難獲得預測引數。

    3):克服組裝錯誤對基因結果預測的影響

    4):建立基因結構預測的評價系統。

    可變性剪下位點的預測較為困難。如何結合RNA-seq資料進行可變剪下預測將是重要的工作方向和難點。

    基因結構預測的研究方向:

    1):利用RNA-seq、EST等資料校正基因結構預測結果,識別可變剪下位點。

    2):對於研究較少的物種,建議利用近緣物種的同源基因資料以訓練基因結構預測軟體。

    3):利用同源基因組之間的共線性資訊,輔助基因結構預測。

    4:基因功能註釋。

    基因功能註釋的發展現狀:全基因組測序將產生大量資料,而實驗方法由於成本較高,不適用於全基因組測序的後續功能分析。為此,目前普遍採用比對方法對全基因組測序的基因功能進行註釋。KEGG和Gene Ontology是目前使用最為廣泛的蛋白質功能資料庫,分別對蛋白質的生物學通路和功能進行註釋。Interpro透過整合多個記錄蛋白質特徵的資料庫,根據蛋白質序列或結構中的特徵對蛋白質進行分類。

    基因功能註釋的研究內容:目前,我們利用四個常用的資料庫進行基因功能註釋。使用的資料庫有Uniprot蛋白質序列資料庫、KEGG生物學通路資料庫、Interpro蛋白質家族資料庫和Gene Ontology基因功能註釋資料庫。

    1):與Uniprot蛋白質序列資料庫比對,獲得序列的初步資訊。

    2):與KEGG資料庫比對,預測蛋白質可能具有的生物學通路資訊。

    3):與Interpro資料庫比對將獲得蛋白質的保守性序列,模序和結構域等。

    4):預測蛋白質的功能。Interpro進一步建立了與Gene Ontology的互動系統:Interpro2GO。該系統記錄了每個蛋白質家族與Gene Ontology中的功能節點的對應關係,我們透過此係統便能預測蛋白質執行的生物學功能。

    基因功能註釋中擬解決的關鍵技術難點:

    目前我們的功能註釋工作是建立在比對的基礎上,這將會帶來兩個比較大的問題。首先,此方法嚴重依賴於外部資料,對某些研究較少的物種限制很大。其次,序列相似並不表示實際生物學功能相似,考慮引入序列比對之外的方法,進一步完善基因功能註釋工作。

    基因功能註釋的研究方向:考慮引入序列比對之外的資料(如蛋白質互作網路、基因表達譜等),利用機率模型演算法進行整合,完善基因功能註釋工作。

  • 中秋節和大豐收的關聯?
  • 光譜頻寬有什麼意義?