新冠病毒自 2019 年開始席捲全球,至今仍未完全結束。如今,新冠疫情已經給人們的生產生活造成了極大的干擾和破壞,且新冠病毒只是一大批日益增多的動物傳染病病毒中的一種,新冠不是第一種人畜共患病,也不會是最後一種,其他比較“知名”的人畜共患病還包括埃博拉、中東呼吸綜合徵、西尼羅河熱以及裂谷熱等等。很多研究表明,人類活動的擴張、對野生生態的破壞,加劇了某些疾病從動物向人類自身的傳播機率。近年來,大多數新出現的人類傳染病(如 COVID-19)都是人畜共患的——由源自其他動物物種的病毒引起,如果能及早識別這類高風險病毒,則可以改善相關研究和監測重點,有望預防此類疾病未來再次暴發。9 月 29 日,來自英國格拉斯哥大學的研究人員在 PLOS Biology 期刊上發表的一篇論文中介紹,他們使用病毒基因組的機器學習技術(一種人工智慧模型)可以預測任何動物病毒感染到人類的可能性,這為預測評估人畜共患病潛力提供了一個新工具。
圖|人畜共患病病毒監測工作中捕獲的蝙蝠(來源:PLOS Biology)
破解挑戰的思路方法
確定人畜共患病的威脅是一項重大挑戰,因為在大概 167 萬種動物病毒中,只有其中少數可能會感染人類。現有的人類感染風險模型依賴於新發現病毒未知的病毒表型資訊(例如,病毒可以感染的物種多樣性),或是病毒毒株的風險水平(如細胞質中的複製能力),這些都限制了所討論的病毒被表徵之前的預測價值。研究人員認為,由於現在大多數病毒都是使用非靶向基因組測序發現的,通常涉及許多同時發現的表型資料有限,因此理想的方法是僅從序列資料中量化相關暴露後人類感染性的相對風險。目前已有的模型可以從基因組序列中識別出充分表徵的人類感染病毒,然而,透過在非常密切相關的病毒(即同一物種的毒株)上訓練演算法,可能忽略與感染能力相關的病毒基因組的次要特徵,此類模型不太可能找到在病毒間泛化的人畜共患病狀態訊號。因此,預測可能對當前病毒多樣性知識中的大量偏差高度敏感。經驗和理論證據表明,病毒基因組中存在可概括的人類傳染性訊號。與廣泛的動物宿主分類群相關的病毒(如靈長類動物、齧齒類動物)可以使用其基因組組成的各個方面進行區分,包括二核苷酸、密碼子和氨基酸偏差。這種病毒基因組組成的測量方式是否足夠特異性以在物種水平區分宿主範圍仍不清楚,但它們的特異性可能通過幾種常見的假設機制產生:首先,針對病毒基因組中核苷酸基序的抗病毒免疫方面,可能會選擇不同人類相關病毒中的常見突變;其次,病毒基因組中特定密碼子的頻率通常與其宿主的頻率相似,這可能是由於提高了 mRNA 翻譯效率或準確性所致;最後,即使沒有對不同病毒基因組施加共同選擇壓力的機制,病毒的系統發育相關性也可以預測人類傳染性的可能,因為通常假設密切相關的病毒具有共同的表型和宿主範圍。基於先前已發表的報告評估人類感染能力的大型病毒資料集,研究人員開發了機器學習模型,該模型可使用從病毒和人類基因組序列中提取的特徵,來預測任何動物感染病毒在給定生物相關暴露的情況下感染給人類的可能性。
18 種病毒人畜共患潛力非常高
研究人員從包含動物感染物種的 36 個病毒家族的 861 個 RNA 和 DNA 病毒物種中收集了具有代表性的基因組序列,將每種病毒標記為能夠感染人類,或者不使用已發表的報告作為基本事實,並訓練模型對病毒進行相應分類。在這些資料中,識別潛在的或未記錄的人畜共患病是研究分析的一個先驗目標。他們首先評估了與人類感染病毒的親緣關係是否會提高人畜共患病的可能性。梯度增強機器(GBM)分類器,可根據序列相似性搜尋確定的病毒分類學或近親屬中人類感染病毒的頻率進行訓練。
圖|從病毒基因組中機器學習預測人類傳染性(來源:PLOS Biology)
接下來,研究人員量化了根據基因組組成(即密碼子使用偏差、氨基酸偏差和二核苷酸偏差)進行訓練的 GBMs 效能,直接從病毒基因組(“病毒基因組特徵”)或基於病毒基因組組成的相似性計算不同的人類基因轉錄本(“人類相似性特徵”):干擾素誘導基因產物(ISG)、管家基因和所有其他基因。此外,為了評估模型的敏感性和特異性,研究人員將來自袋裝模型的人類感染預測機率的平均值轉換為二元分類(即,人類感染與否),將預測機率 >0.293 的病毒預測為人類感染。這些二元預測正確地確定了 71.9% 的主要或完全感染人類的病毒,以及69.7%的人畜共患病毒為人類感染,儘管病毒家族之間的表現各不相同。由於二元分類忽略了迭代之間的變異性和病毒相對於彼此的等級,研究人員又進一步將預測的人畜共患病機率轉換為潛在的人畜共患病類別,根據該方案,預計大多數(92%)已知的人類感染病毒具有中等(21.5%)、高(47.1%)或非常高(23.4%)的人畜共患潛力,而只有 8% 具有低人畜共患病潛力。
圖|在訓練資料中確定的推定未識別的人畜共患病(來源:PLOS Biology)
基於論文中模型的分析,目前共有 18 種病毒被認為具有非常高的人畜共患潛力,其中至少有 3 種(Aura virus, Ndumu virus, Uganda S virus)具有人類感染的血清學證據。在整個資料集中,77.2% 的預測具有非常高的人畜共患病潛力的病毒已知會感染人類。值得關注的是,論文中提出的模型可以透過重建分類學,比系統發育鄰域估計器更準確地進行預測,或者比基於分類學的模型更詳細地進行預測。
儘管論文提出的模型分析並非旨在最終確定人類感染基因組預測因子的生物學機制,但仍然能夠探索特定基因組組成特徵、以及特徵組如何與人類傳染性相關的新興模式,研究人員進一步詳細地探討了單個特徵對模型預測的影響。最後,研究人員利用兩個案例研究說明了該預測框架的實用性。首先,研究人員使用基於基因組特徵的組合模型對訓練資料中不存在的 758 種病毒進行了排名,共有 70.8% 從人類取樣的病毒被正確識別為具有非常高或高人畜共患病潛力,其餘的人類相關病毒主要被歸類為中等人畜共患病潛力,其中 3 個物種預測具有低人畜共患病潛力。在從非人類動物或潛在載體樣本測序的 645 種人類感染性未知的病毒中,45.0% 被預測具有非常高或高人畜共患病潛力,非常高的人畜共患病潛力類別以 Papillomaviridae(34.1%)和 Peribunyaviridae(19.5%)為主。
此外,研究人員使用 beta 迴歸模型來探索人畜共患病潛力的預測如何在宿主和病毒組之間變化。分析發現,從人類樣本中測序的 113 種病毒物種的得分始終高於在其他宿主中檢測到的那些。儘管來自蝙蝠、齧齒動物和偶蹄動物等被認為是高危宿主的病毒構成了保留資料的很大一部分(來自蝙蝠的病毒甚至超過了來自人類的病毒),但它們並沒有提高預測的人畜共患病機率,並且在較高的宿主分類水平上沒有檢測到差異,這凸顯了當前用於病毒發現/報告的取樣工作與人畜共患病風險分佈之間的潛在差異。
圖|從冠狀病毒基因組預測的人類感染機率(來源:PLOS Biology)
第二個案例研究,則使用了冠狀病毒來探索基於基因組特徵的組合模型區分同一家族內不同病毒物種和單個病毒物種內不同基因組的能力。研究人員預測了所有目前公認的冠狀病毒物種以及 62 個人類和動物源性沙貝科病毒基因組的人畜共患病潛力,這些基因組目前都被國際病毒分類委員會(ICTV)歸類為嚴重急性呼吸系統綜合症(SARS)相關冠狀病毒。他們還發現了另外 2 種與動物相關的冠狀病毒——Alphacoronavirus 1和最近描述的Sorex araneus 冠狀病毒 T14——至少與已知的、高階的、感染人類的冠狀病毒一樣,或者更有可能感染人類,這些應被視為進一步研究的高度優先事項。在模型分析結果中,大多數基因組(85.5%)被歸類為具有中等人畜共患病潛力,然而,嚴重急性呼吸系統綜合症冠狀病毒 2(SARS-CoV-2)、來自蝙蝠的密切相關的病毒 RaTG13,以及所有5種密切相關的穿山甲相關分離物的檢測結果都預測具有很高的人畜共患病潛力。
有望防疫情於未然
在一個以基因組為基礎的病毒快速發現的時代,研究和監測活動的合理優先順序一直是尚未解決的挑戰。而這項論文的研究結果表明,病毒的人畜共患病潛力可以從其基因組序列中推斷出來,可以回顧性或前瞻性地預測病毒能夠感染人類的可能性,能為病毒研究和監測優先事項的決策提供資訊,這在很大程度上提供了更先進的選擇。“這些發現為我們使用 AI 技術從病毒基因序列中提取大量資訊提供了一個關鍵支撐。”論文的作者之一 Simon Babayan 說道,“基因組序列通常是我們掌握新發現病毒的第一個、通常也是唯一的資訊,我們可以從中提取的資訊越多,就能越早確定病毒的起源及其可能帶來的人畜共患風險。隨著更多病毒被表徵,我們的機器學習模型在識別稀有病毒方面將變得更加有效,這些病毒應該受到密切監測並優先用於搶先疫苗開發。”在只需要基因組序列時,研究人員的方法在人畜共患病風險評估的替代模型中具有定量和定性優勢,不過,這種新的模型也有很多侷限性,例如對病毒多樣性的不完整知識可能導致在這種方法下完全錯誤的優先順序。此外,使用來自每個病毒物種的單個示例基因組來最大限度地發現人類感染的普遍特徵的可能性,雖能避免對新病毒過度樂觀的效能指標,但這種方法的潛在缺點是忽略了尚未被 ICTV 正式認可的大量病毒的多樣性。從病毒風險評估的角度整體來看,當大多數其他風險因素資料仍然未知時,論文中提出的模型可以更早地利用純粹基於基因組序列的模型,在病毒發現和基因組測序後立即識別許多潛在的人畜共患病,透過突出最有可能成為人畜共患病的病毒,可以做好進一步的生態和病毒學表徵。此外,研究人員還表示,應用新的模型之後,仍有相當多的病毒可能需要進行驗證性測試,在進行重大的研究投資之前,這種需求仍會隨著病毒的不斷髮現而增加。2020 年 7 月,聯合國環境規劃署(UNEP)和國際畜牧研究所(ILRI)曾聯合釋出了一份名為《預防下一次大流行病:人畜共患疾病以及如何阻斷傳播鏈》的報告,在舊有經驗的基礎上,透過採取人類、動物和環境“一體化健康”方法,是遏制未來疾病的暴發的一種舉措。基於 AI 技術預測病毒傳播的可能性固然值得肯定,但為了防止大規模疫情的頻繁出現,我們也必須更加謹慎地保護我們的自然生態環境,從解決問題的根源做起。參考資料:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3001390