首頁>科學>

作者/餘小飛

在美國《科學》(Science)雜誌近期發表的文章Complicated legacies: The human genome at 20中就提到了相關問題:很多收集了當地原住民的生物材料來研究疾病、醫學特徵和人口起源的研究並沒有使參與者或群體受益,甚至對他們造成了傷害,例如加劇了歧視,出現有害的偏見或對文化信仰產生挑戰。

為了避免個人隱私及倫理學上的問題,近日華大基因研究院和法國巴黎多所大學的研究人員們用神經網路成功建立了人工基因組(AG):使用機器學習挖掘現有生物庫,並生成大段人類基因組,這些基因組不屬於真實人類,但具有真實基因組的特徵。

該項研究以Creating artificial human genomes using generative neural networks為題於2月4日發表在國際期刊PLoS Genetics上。

「現有的基因組資料庫是生物醫學研究的寶貴資源,但出於倫理學的考慮,這些資料要麼無法公開訪問,要麼被冗長而繁瑣的應用程式所掩蓋。這為研究人員造成很大的科學障礙。」該研究的第一作者,塔爾圖大學現代人口遺傳學初級研究學者布拉克·耶爾曼(Burak Yelmen)表示,「我們的這項研究我稱之為『安全分子』,可以幫助我們在安全的道德範圍內克服這一障礙。」

在眾多生成模型中,研究人員重點研究了生成對抗網路(Generative Adversarial Network,GAN)和受限玻爾茲曼機(restricted Boltzmann machine,RBM)這兩種。

GAN是無監督學習的一種,透過讓生成網路和判別網路相互博弈的方式進行學習,能夠學習各種域中的複雜資料分佈。在訓練期間,生成網路會生成新例項,而判別網路會評估其真實性。訓練目標在於以某種方式學習資料分佈,以使判別網路無法將生成網路所建立的新例項與真實資料區分開。

RBM是另一種生成模型,是由輸入層和隱藏層組成的兩層神經網路。RBM的學習過程在於最大化模型可見變數上的似然函式。

研究人員提出並比較了原型GAN模型和RBM模型,透過這兩種模型對真實基因組資料集進行機器學習,並最終建立了可以模擬真實基因組並捕獲種群結構以及真實基因組其他特徵的人工基因組(AG)。人工基因組保留了真實基因組的許多複雜特徵以及個體之間的異質關係。

他們還對實際基因組進行了多次分析,以評估所產生人工基因組的質量。「令人驚訝的是,這些來自隨機噪聲的基因組模仿了我們在真實人類種群中觀察到的複雜性。從大多數特性來看,它們與我們用來訓練演算法的生物庫中的其他基因組沒有區別,除了一個細節:它們不來自於現實中具體的某一個人。」該研究的作者之一,Mobilitas Pluss研究員盧卡·帕加尼(Luca Pagani)博士說。

研究人員還評估人工基因組與真實基因組的接近度,來測試原始樣本的隱私是否得到了保護。「儘管在成千上萬的基因組中檢測到隱私洩漏似乎是大海撈針,但我們還是結合了多種統計手段來仔細檢查所有模型。令人興奮的是,對複雜洩漏模式的詳細探索可以改善生成模型的設計及評估,併為機器學習領域助力。」該研究的主要參與者之一,法國巴黎國家薩克雷大學、法國國家科學研究中心CNS研究人員弗洛拉·傑伊(Flora Jay)博士說。

談及人工基因組未來可能帶來的效益,研究人員表示,人工基因組有可能成為遺傳研究中的寶貴資產。這些具有現實基因組的假想人可以充當所有未公開獲得或需要長期應用程式或合作的真實基因組的「替身」,並且消除基因組研究中代表性不足的人群基因組研究所面臨的重要可及性障礙。

論文連結:https://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1009303

10
最新評論
  • mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶
  • 風化作用和風力侵蝕有關係麼?如何區分各種風化和侵蝕地貌?