首頁>科學>

撰文|nagashi

2001年,人類基因組計劃(HGP)工作草圖發表,該計劃成功繪製了人類基因組圖譜,人類由此獲得了屬於自己的“自然天書”。從人類基因組圖譜中只發現了大約20000個編碼蛋白質的基因,這些編碼蛋白質的基因只佔據人類基因組的1.5%左右,剩餘的98.5%由重複序列增強子調控序列非編碼RNA等不翻譯的序列佔據,這些不翻譯的基因組序列也被稱為The dark genome(黑暗基因組)。

然而,在隨後20年的時間裡,關於這本“天書”的解讀卻十分不易,直到現在,我們對人類基因組的表達模式仍缺乏足夠的認識

在分子生物學中,開放閱讀框(ORFs)是指一段從起始密碼子開始,結束於終止密碼子的連續DNA序列,由此可以編碼蛋白質。值得注意的是,基因組分析預測表明人類基因組中存在許多非典型開放閱讀框,但它們是否能編碼生物活性蛋白尚未得知。

2021年1月28日,美國麻省理工學院-哈佛大學博德研究所(Broad Institute)的研究人員在 Nature Biotechnology 雜誌上發表題為:Noncanonical open reading frames encode functional proteins essential for cancer cell survival 的研究論文。

這項研究表明,非典型開放閱讀框也可以表達生物活性蛋白!並且,部分非典型開放閱讀框還與癌症的發生發展密切相關,編碼翻譯了癌細胞所必須的蛋白

在人類基因組中,除了已知的20000個基因編碼蛋白質外,還存在著大量之前未知的功能性蛋白,在疾病尤其是癌症中發揮著作用

這些蛋白可作為癌症治療的潛在靶點,或將有助於新的癌症靶向治療藥物的開發。

人類基因組序列的早期分析表明,人類擁有10萬個甚至更多的編碼蛋白質的基因。然而,進一步的研究發現,這些候選基因中的大多數更有可能產生非編碼RNA、片段互補的DNA克隆或表達水平不顯著的RNA。

與此同時,人類蛋白質組計劃中的NeXtProt資料庫識別出約17600個經質譜分析確認的蛋白質編碼基因以及約2100個未確認的蛋白質編碼基因。然而,越來越多利用核糖體相關RNA高通量分析的證據表明,目前註釋為非編碼RNA或假基因的DNA序列也可能可以編碼蛋白質

並且,由於嚴格的、基於保守的分析只向人類基因組中添加註釋了少量的新蛋白質。目前尚不清楚這種翻譯是否反映了在構建參考基因組資料庫、核糖體掃描或混亂的計算預測過程中被忽略的蛋白質。

更重要的是,事實上質疑這些預測的新蛋白質是否可以穩定翻譯,以及是否具有生物學功能,仍有待進一步的系統實驗去驗證。

研究流程圖

在此項研究中,研究團隊實驗性地從非典型開放閱讀框資料集中選擇了553個候選物件。研究人員發現,當它們在人類癌細胞系中被敲除時,有57種誘導活性缺失,且在異位表達後,257個出現蛋白表達,401個誘導基因表達改變。

與此同時,CRISPR篩選和起始密碼子突變實驗表明,非典型開放閱讀框的生物學效應是依賴於其翻譯而不是RNA介導的效應。

CRISPR篩選以識別與癌細胞生存有關的未知開放閱讀框

不僅如此,研究人員還發現其中一個ORF——富含甘氨酸的胞外蛋白1 (GREP1),其編碼了一個在乳腺癌中高表達的分泌蛋白。在263個乳腺癌細胞系中敲除該蛋白後,乳腺癌來源細胞系的增殖受到了抑制。

除此之外,研究還表明,表達了GREP1的癌症細胞系所分泌的致癌細胞因子——GDF15的丰度增加,而補充GDF15可以減輕敲除GREP1後的細胞生長抑制作用。

GREP1在乳腺癌中的癌症依賴基因的表徵

論文作者表示:“我們確定,我們資料集中大約10%的開放閱讀框是癌細胞生存所需的。儘管資料集代表的是非典型開放閱讀框的精選列表,而不是所有可能的開放閱讀框的隨機抽樣,但這些實驗表明,非典型開放閱讀框可能對癌症和其他疾病的發病機制和治療提供新的見解。”

識別翻譯的、未註釋的或未研究的非典型開放閱讀框

總而言之,儘管人類基因組在20年前就已經完成了測序,但人類基因組中蛋白質編碼基因的確切數量仍是一個爭議點。這項研究表明,在典型編碼區(CDS)以外的非編碼序列也普遍存在翻譯,這些非典型開放閱讀框也可以表達出生物活性蛋白,並且可能在癌症等疾病的發生發展中起作用,未來或將成為治療人類疾病的新靶點!

論文連結:

https://www.nature.com/articles/s41587-020-00806-2

5
最新評論
  • mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶
  • 太空法庭來了,迪拜欲填《外層空間條約》空白,限制太空非法行為