-
1 # 矽釋出
-
2 # 52sissi
大資料分析在選擇病毒疫苗中起著關鍵作用。現在,這聽起來像是科幻小說的摘錄。但是實際上,現代大資料分析技術的實際應用可以改善當今的生活。
在大資料分析在病毒疫苗研究中的應用中,我們將為您講述一個有趣的故事。我們將討論病毒(非計算機型別),流行性感冒以及第一種疫苗的發明方法。最重要的是,我們將討論一些用於分析生物學資料的大資料分析技術和工具。此外,我們還將討論基因組資料的一種基本視覺化技術:系統發育樹。我們將在預測流行性感冒的變化併為病毒的未來行為建模時看到如何實施樹木。到本文結尾,您甚至將學習有關平臺的知識,在這裡您可以儲存和分析基因資料。
但是,讓我們一次邁出一步。首先,我們將研究一般的病毒及其功能。
病毒疫苗:病毒機制,又稱病毒生命週期
什麼是病毒?
生物是複雜的系統。我們已經習慣了大型且可見的動物-哺乳動物,鳥類,爬行動物。但是,也有微觀的看不見的生物,它們實際上生活在我們中間,或者更確切地說,是在我們內部。小細菌或病毒細胞會滲透到我們的身體,使我們生病。但是,細菌和病毒是兩種不同型別的生物。常見的誤解是疾病的原因主要是細菌。細菌是一組不同的細胞,但實際上,其中只有1%會引起疾病。其餘的完全是無害的。病毒呢?好吧,它們幾乎是硬幣的另一面(如果那個硬幣很不公平),因為幾乎所有硬幣(大約99%)都會生病。
而且,如果病毒對其他生物如此危險,那麼仔細研究它們的功能無疑是有道理的。
病毒如何起作用?
病毒起作用的方式是透過滲透宿主或宿主細胞。然後,它們利用這些細胞在生物體內複製和傳播,並且通常會造成各種破壞。從技術上講,進入細胞之前,病毒被稱為病毒體。的確,幾乎每個人都使用病毒一詞來描述這兩個階段。不過,這是一個有用的事實,您可以在下一次聚會對話有點陳舊時提出。
無論如何,這是所有病毒如何工作的基本機制。但是,您可能已經猜到了,不同的病毒有特定的方式潛入我們的細胞。它們可能因病毒而異。因此,我們將在下幾段中看到有關流感如何運作的細節。
流感如何起作用?
您可能在新聞中聽說過H3N2或H1N1流感病毒。但是,如果您不是生物學家,您可能想知道這些字母和數字的含義。好吧,H代表血凝素,N代表神經氨酸酶。H和N都是蛋白質,它們都有自己的用途。
H和N表面蛋白-流感生命週期的重要組成部分
H和N蛋白位於病毒表面,在流感的生命週期中起著至關重要的作用。它們有助於宿主細胞(血凝素)的滲透以及隨後病毒(神經氨酸酶)在宿主細胞中的複製。
現在,這兩種蛋白質的結構可能有所不同,因此它們的不同版本可以用數字標識。H3N2是一個例子。它包含H蛋白的第三種變體和N蛋白的第二種變體。實際上,H3N2和H1N1是感染人類的兩種最常見的流感病毒亞型。因此,讓我們看一下它們的流行名稱和特徵。
香港流感
H3N2,也稱為香港流感,於1968年引起大流行,在全球造成超過100萬人死亡。儘管不像H1N1病毒那樣致命,但它具有極強的傳染性,並從亞洲開始,然後透過從越南返回的軍隊到達美國,迅速在人群中傳播。到1969年底,該病毒也已傳播到非洲和南美的部分地區。
西班牙流感
H1N1病毒造成了2009年的豬流感大流行,以及1918年毀滅性的西班牙流感。造成西班牙流感的特殊H1N1毒株具有極高的致死性,導致全球超過3000萬人死亡。然而,高死亡率的原因仍然是個謎。雖然一些科學家建議涉及這種病毒的異常侵襲形式,但另一些科學家則聲稱感染周圍的情況:第一次世界大戰期間營地過於擁擠和缺乏無菌環境是造成高死亡人數的原因。
您可能在想:“如果這種病毒如此危險或具有致命性,我們如何保護自己免受病毒侵害?答案是:流感疫苗,通常稱為病毒疫苗。所以…
什麼是疫苗及其作用?
第一種疫苗
愛德華·詹納(Edward Jenner)於1796年首次引入了成功的疫苗,它是針對天花病毒的。他觀察到以前患有另一種疾病(牛痘)的人沒有染上天花。因此,如果人們首先感染了牛痘病毒,他們就會對更具致命性的天花產生抵抗力。他的觀察幫助建立了第一個成功的疫苗。結果,天花病毒此後在世界範圍內被根除。
如今,我們有不同型別的疫苗。它們旨在幫助人體的免疫系統識別並防止病毒複製並引起感染。該過程涉及使用某種形式的弱化病毒,免疫系統可以訓練這種弱化病毒進行識別。然後,它可以為其建立特定抗體並將其滅活。
病毒疫苗:它們包含什麼 病毒疫苗由弱毒的H1N1和H3N2毒株組成。當這些物質出現時,我們的生物體就可以開始產生針對病毒H1N1和H3N2細胞的特異性抗體。然後,當真正的病毒進入系統時,我們的免疫系統便準備就緒並可以使其失活。
病毒疫苗:生產,選擇
世衛組織決定包括哪些病毒疫苗。而且,不,這並不是要提問或作為醫生參考,它只是世界衛生組織(WHO)的縮寫,而且正好是由人們來決定每年將包含哪些病毒疫苗。
但是為什麼需要改變呢?
年度病毒疫苗的原因:抗原性漂移和轉移
為了回答這個問題,我們首先需要解釋病毒進化的兩個主要機制:抗原漂移和抗原轉移。
抗原漂移
想象一下,有一群人,被困在海中的木筏上。隨著時間的流逝,木排上的人們會慢慢改變容貌,留出鬍鬚,頭髮變長,曬黑。本質上,他們仍然是同一個人,但略有變化。這就是抗原漂移的意思,隨著時間的推移緩慢變化。
抗原轉移
現在,如果那些人混合他們的基因組(沒有一個孩子這麼稱呼)並創造出一個後代,也就是一個孩子,它將包含他們兩個特徵的混合物。這就是抗原轉移或重排的意思:遺傳物質的交換和新生物的產生(如此巨大的變化)。在我們的案例中,這是一種新的流感亞型,例如我們之前提到的H3N1或H1N1。
這就回答了我們有關疫苗生產及其每年更換原因的問題。流感快速變化,變異和轉化。因此,很難找到一種可以對抗所有可能傳播的流感病毒型別的疫苗。
所以,當科學家們決定如何制定疫苗,他們需要選擇哪株病毒,以使其最有效的包含。後者取決於疫苗與流感病毒的相似程度,流感病毒將在即將來臨的流感季節占主導地位。
預測流感傳播–大資料分析
如何預測即將到來的流感病毒型別?
這就是大資料分析發揮作用的地方。基於有關以前和當前病毒傳播和變體的現有資料,科學家嘗試使用機器學習演算法對病毒的未來行為進行建模和預測。
為此,他們首先需要一種適當的方式來處理有關病毒或更確切地說是其基因組的資訊。這是透過分析遺傳資料來完成的。但是到底什麼是遺傳資料?
什麼是基因組和基因資料?
遺傳資料包括生物體或其部分的基因組。它通常由DNA組成,以字串形式表示。就流感而言,它包含RNA,RNA是某些病毒的遺傳物質。
有了資料後,就該考慮如何理解這些資料了,這意味著我們首先需要一種視覺化它的方法。
有很多選擇。但是,我們將特別關注一種主要的系統發育樹。
視覺化技術:系統發育樹
系統發育樹,也稱為進化樹,根據其遺傳學來表示不同物種的接近程度。基本上,它們是顯示物種之間進化關係的圖。在流行性感冒的情況下,此類樹木可用於視覺化病毒的不同品系。
預測模型
現在是時候將所有這些放在一起併到達最終點了。即,使用機器學習技術進行預測。
想象一下,您已經以流感基因組或抗體的形式獲得了生物學資料,並已使用樹木將其表示出來。使用從樹中獲取的資訊,您可以採用不同的機器學習技術來模擬流感病毒的未來行為或傳播。
這些包括使用非負最小二乘法,構造最大似然樹或使用評分方法。後者的例子包括構建相似性類別和替代矩陣,以解釋病毒的抗原差異。在接下來的段落中,我們將概述幾種不同的技術。
非負最小二乘
它使用非負最小二乘最佳化,該最佳化可測量系統樹的分支之間的距離。他們使用雙向加權系統發育樹,並確定H蛋白表面編碼變化的集合。然後,該模型可以識別不同流感病毒株的抗原影響。
透過最大可能性或PAML進行系統發育分析
進行系統發育分析的另一種方法是使用PAML軟體包,該軟體包包含使用最大似然(ML)進行遺傳資料系統發育分析的程式。這樣做的方法是採用一組樹並在不同模型下評估它們的對數似然值。這些模型估計一些引數,同時允許其他引數變化。這樣,他們可以將多種基因型別整合到流感病毒株及其表面H蛋白中。
基於樹和替換模型的比較
值得一提的第三種方法是……嗯,實際上有兩種不同的方法:一種基於樹的模型和一種替換模型,以及兩者之間的比較。感覺就像我們在騙你,但我們保證特別要談談這兩個。
預測流感病毒株的最後一種方法。它包括一個基於樹的模型,該模型具有一個測試和一個參考流感病毒株,並建立加權的系統發育樹。替換模型使用與參考病毒和測試病毒之間的氨基酸替換相關的貢獻之和。根據2002年至2015年收集的資料,基於樹的模型和替換模型在預測準確性方面的表現相似。
選擇“最佳”方法(在大資料分析中)
我們確實說過最後兩個模型是有特定目的的。這是為了說明大資料分析中一個非常普遍的問題:機器學習提供了各種各樣的工具,使我們能夠分析資料並建立預測模型。在某些情況下,尤其是如果您是該領域的新手,大資料分析在病毒疫苗研究中的應用https://www.aaa-cg.com.cn/data/2270.html這可能會變得勢不可擋。我們看到兩種不同的技術在相同問題上產生相似的結果。實際上通常是這樣:兩種或多種演算法在給定的資料集上表現相似。然後,“正確”演算法的選擇可以取決於我們給出的任務的具體情況,也可以由其他因素(速度,可伸縮性,模型的可解釋性,清單等)確定。
這也被稱為“無免費午餐定理”,這是機器學習中的一個常見問題,表明沒有一種模型可以解決所有問題。大資料分析家工作的重要部分是瞭解每種方法的優點和缺點,並始終選擇合適的工具來解決當前的問題。
基因組,大資料分析的新興領域
這幾乎使本文結束。
那真是過山車,對嗎?我們從瞭解流感以及病毒如何工作開始,並回顧了第一種疫苗和最大的流感大流行的歷史。什麼時候我們談到抗原的變化和漂移?特別是解釋這些,我們玩得很開心。
總之,大資料分析不僅僅是IT領域或大型公司使用的工具。實際上,它在(生命)科學中起著越來越重要的作用。而且,醫學和生物學應用正變得越來越重要和廣泛。從而允許使用者在各自的雲平臺上儲存和分析自己的基因組。
而且,如果他們這樣做了,那麼可以肯定地說,使用機器學習進行基因組及其分析值得研究。事物執行的方式,基因組及其分析可能很快會成為我們日常生活的一部分。因此,我們認為熟悉該領域非常有道理。而且,在介紹完我們剛剛給您的內容之後,我們確信您會做到這一點。
https://www.toutiao.com/i6820236134396723719/
回覆列表
大資料與典型的關係資料庫不同。這對於CIO或IT主管來說是顯而易見的,但是對兩個系統如何不同的簡要解釋將說明為什麼大資料目前正在進行中 ,但仍然擁有如此巨大的潛力。
大資料和關係資料庫最大的區別在於大資料沒有關係資料庫所具有的傳統的表格和列結構。在經典的關係型資料庫中,需要一個數據模式(例如,人口統計資料位於一個表中,透過像患者識別符號這樣的共享識別符號連線到其他表)。每一塊資料都存在於其明確的位置。相比之下,大資料幾乎沒有任何結構。資料是以原始形式從源系統中提取的,儲存在一個龐大的,有點混亂的分散式檔案系統中。 Hadoop分散式檔案系統(HDFS)以簡單的分層形式儲存多個數據節點的檔案目錄。通常,資料以高度壓縮的形式儲存在資料節點中的64MB塊(檔案)中。
由於其非結構化的性質和開源的根源,大資料的擁有和操作比傳統的關係資料庫要便宜得多。 Hadoop叢集由廉價的商品硬體構建而成,它通常以直連(DAS)配置的傳統磁碟驅動器而不是昂貴的儲存區域網路(SAN)執行。大多數關係資料庫引擎都是專有軟體,需要昂貴的許可和維護協議。關係資料庫還需要重要的專業資源來設計,管理和維護。相比之下,大資料不需要太多的設計工作,而且維護起來相當簡單。大量的儲存冗餘允許更多可容忍的硬體故障。 Hadoop叢集旨在簡化失敗節點的重建。