回覆列表
-
1 # 小宇堂
-
2 # 看熱點科技
毫無疑問是需要的,而且現在就有很多在生物公司從事計算機程式設計和資料分析的人員,而且待遇也不錯的哦,因為我就是從事生物科研服務方面的,所以知道這些情況。
隨著高通量測序技術的發展,現在很多生物的基因組資料被公佈,研究,這是一個海量的資料,需要人工處理,需要用各種表格和圖表做展示和統計,這時候用計算機程式設計來實現這些統計和繪圖是最合適不過的來。比如一些熱圖,氣泡圖,PCA圖,全圖。很多時候還需要把幾個因素綜合一起來進行資料分析,或者幾個維度資料綜合,都需要透過計算機來實現的,所以計算機程式設計對於生物基因組學發展至關重要的。
1. 轉錄組測序資料分析內容
2.PCA圖
3.火山圖
不一定需要。但如果懂了計算機程式設計會給生物基因研究提供可類比的思路和原理。因為計算機和基因學這兩者研究的客體都是資訊,甚至就可以稱為資料。現在就有生物醫學資訊學和生物資訊學等新興學科跨越了傳統的資訊學和生物學領域,並逐漸開拓新的研究方向。因此在生物基因研究方面廣泛地涉及到了計算機相關的技術,而在當今的生物資訊學涉及到大量的資料探勘工作,這方面是需要進行程式設計的,諸如利用R語言或其他面向資料探勘的語言來進行大資料分析。
我們下面來詳細瞭解一下現代生物資訊學與資訊學的關聯。
生物資訊學是一種混合學科,它將生物的資料與資訊儲存、分發和分析技術聯絡起來,以支援包括生物醫學在內的多個科學研究領域。生物資訊學研究的是高通量基因資料生成實驗提供的資料,這些實驗包括基因組序列確定和基因表達模式的測量等等。資料庫專案負責整理和註釋資料,然後透過全球資訊網進行分發。挖掘這些資料產生新的科學發現並確定新的臨床應用。特別是在醫學領域,已經出現了生物資訊學的許多重要應用。例如,它可用於識別基因序列與疾病之間的相關性,從氨基酸序列預測蛋白質結構,幫助設計新藥以及根據患者的DNA序列為患者量身定製治療方法(藥物基因組學)等等。
上圖:這張的計算機影象顯示了炭疽桿菌某蛋白質中七個單元的各種結構關係,並展示了與蛋白質結合的藥物(以黃色顯示)的相互作用,以阻斷所謂的致死因子單位。給定分子的單個結構,生物資訊學在使科學家能夠預測藥物分子在蛋白質中結合的位點方面起著重要作用。
生物資訊學涉及到資料探勘,資料探勘可能需要涉及到程式設計。生物資訊學的經典資料包括基因的DNA序列或完整的基因組。蛋白質的氨基酸序列;蛋白質、核酸和蛋白質-核酸複合物的三維結構資料等。其他資料流包括:
轉錄組學、即從DNA合成RNA的模式;
蛋白質組學,蛋白質在細胞中的分佈;
相互作用組學,蛋白質-蛋白質和蛋白質-核酸相互作用的模式;
和代謝組學,小分子透過細胞中活躍的生化途徑轉化的性質和運輸模式。
在上述各種情況下,都希望獲得針對特定細胞型別的全面、準確的資料,並確定資料中的變化模式。例如,資料可能會根據細胞型別,資料收集的時間(在細胞週期或晝夜,季節或年度變化期間),發育階段和各種外部條件而波動。而此外,元基因組學和元蛋白質組學將這些測量範圍擴充套件到對環境樣本(例如一桶海水或土壤樣本)中生物的全面描述。
上圖:生物資訊學涉及到的方方面面。
生物資訊學一直受到生物學資料生成過程的巨大推動。基因組測序方法可能顯示出最戲劇性的效果。1999年,核酸序列檔案庫共包含35億個核苷酸,比單個人類基因組的長度略長 ; 十年後,該庫包含超過2830億個核苷酸,約95個人類基因組的長度。
有多種用於資料探勘的程式語言,主要包括以下幾種:
R語言
Julia語言
Python語言
上圖:2014年資料探勘的主要程式語言佔比情況。
資料儲存與檢索在生物資訊學中,資料庫用於儲存和組織資料。這些實體中有許多從科學論文和基因組計劃中收集DNA和RNA序列。許多資料庫掌握在國際組織手中,例如:
由英國歐洲分子生物學實驗室核苷酸序列資料庫(EMBL-Bank),日本DNA資料庫(DDBJ)和美國國家生物技術資訊中心(NCBI)的GenBank組成的諮詢委員會負責監督國際核苷酸序列資料庫合作組織(INSDC)。為了確保可自由獲得序列資料,科學期刊要求新的核苷酸序列存放在公眾可訪問的資料庫中,作為發表文章的條件。(類似條件適用於核酸和蛋白質結構。)還存在基因組瀏覽器、資料庫,這些資料庫將有關特定物種的所有可用基因組和分子資訊彙集在一起。
生物大分子結構的主要資料庫是全球蛋白質資料庫(wwPDB),由美國結構生物資訊學研究合作機構(RCSB),英國歐洲生物資訊學研究所的歐洲蛋白質資料庫(PDBe)和日本大阪大學的蛋白質資料庫聯合支援。
從資料檔案中檢索資訊使用標準工具透過關鍵字識別資料項;例如,可以在Google中輸入“土豚肌紅蛋白”並檢索該分子的氨基酸序列。
資料探勘程式設計可能涉及到從這些資料庫中匯入資料。
生物資訊學的目標開發用於測量序列相似性的有效演算法是生物資訊學的重要目標。基於動態程式設計的Needleman-Wunsch演算法可確保找到序列對的最佳比對。該演算法從本質上將一個大問題(完整序列)劃分為一系列較小的問題(短序列段),並使用較小問題的解決方案來構造該較大問題的解決方案。在矩陣中對序列的相似性評分,並且該演算法允許檢測序列比對中的缺口。
儘管Needleman-Wunsch演算法是有效的,但它對於探測大型序列資料庫仍然太慢。因此,人們已經非常關注尋找可以處理檔案中大量資料的快速資訊檢索演算法。一個例子是BLAST程式(基本區域性比對搜尋工具)。BLAST的開發採用稱為位置特異性迭代(或PSI-)BLAST的技術,它利用相關序列中的保守性模式,並結合BLAST的高速性和極高的敏感性來尋找相關序列。
生物資訊學的另一個目標是透過預測來擴充套件實驗資料。計算生物學的基本目標是根據氨基酸序列預測蛋白質結構。蛋白質的自發摺疊表明這應該是可能的。透過兩年一次的結構預測關鍵評估(CASP)程式來測量預測蛋白質摺疊方法的進展,該程式涉及結構預測方法的盲測。
給定可配合的單個結構,生物資訊學也可用於預測蛋白質之間的相互作用。這被稱為“停靠問題”。蛋白質-蛋白質複合物在表面形狀和極性上顯示出良好的互補性,並且在很大程度上由於弱相互作用而穩定,例如疏水面的埋入、氫鍵和範德華力等等。
計算機程式可以模擬這些相互作用,以預測結合伴侶之間的最佳空間關係。設計一種與靶蛋白具有高親和力的抗體就是可能具有重要治療用途的挑戰課題之一。
上圖:蛋白質的停靠問題。
早年,許多生物資訊學研究的重點相對狹窄,專注於設計用於分析特定型別資料的演算法,例如基因序列或蛋白質結構。然而,現在,生物資訊學的目標是綜合的,旨在弄清楚如何將不同型別的資料組合用於理解自然現象,包括生物和疾病。因此內容越來越豐富。
所以對於一些前沿研究專案,生物學或者遺傳學研究者可能需要自己程式設計開發研究工具。所以學習程式設計技能也是有幫助的。
生物學方面的應用DNA或脫氧核糖核酸為每種生物提供了一套完整的描述。每個生物體中的每個細胞都包含完整的DNA副本。基因是編碼並存儲在DNA中的核苷酸序列集。每個基因編碼某種蛋白質。DNA被轉錄成mRNA,即信使核糖核酸,然後被翻譯成蛋白質。蛋白質由氨基酸序列定義。單個氨基酸由稱為密碼子的三個核苷酸編碼。如下圖所示,有64個可能的密碼子和只有20個氨基酸。由於只有20個氨基酸,因此多個密碼子編碼相同的氨基酸。這被稱為遺傳密碼的簡併性。由於遺傳密碼的這種簡併性,某些SNP不會導致蛋白質序列發生變化。這稱為同義突變。如果SNP導致蛋白質序列改變,這被稱為非同義改變。在人類基因組中發現單個核苷酸的變化可能就像“在大海撈針”,但是,生物資訊學資源可以做到這一點。
上圖:此密碼子表顯示了遺傳密碼如何轉換為組成蛋白質的氨基酸序列。
一個單核苷酸多型性,或SNP,是人類的DNA序列中可能發生的微小遺傳變化或變異。SNP代表人類中發現的最常見的DNA變異型別。這些變異可用於研究和跟蹤家庭的繼承。儘管整個人群中超過99%的人類DNA序列是相同的,但是DNA序列(例如SNP)的微小變化可能會對人類對疾病,環境因素和藥物的反應產生重大影響。有趣的是,SNP在進化上是穩定的。這意味著它們代代相傳的變化不大。話雖如此,SNP在生物醫學研究中具有極大的興趣和價值。SNP資料正在影響開發藥品或醫療診斷程式。上圖:在這裡您可以看到一個單核苷酸多型性,即SNP,它導致序列1和序列2之間的遺傳變化很小。
人類DNA序列的變異會影響人類發展疾病和對藥物的反應。儘管SNP不會引起疾病,但它們可以幫助確定某人患上特定疾病的可能性。
計算生物學,即分析和解釋資料的實際過程,結合了生物資訊學,被用於稱為資料探勘的技術。隨著人類基因組計劃在2003年的完成,大量的基因組資料可用於資料庫挖掘,即透過識別DNA中相似或不相似的序列來生成關於某些目的基因或蛋白質的功能或結構假設的過程。
國際HapMap專案旨在透過HapMap向研究人員提供資訊,HapMap是人類常見遺傳變異的目錄,也提供對變異的描述以及它們在我們DNA中的位置。該目錄提供了研究人員將遺傳變異與特定疾病風險聯絡起來所需的資訊。總結生物學、遺傳學與計算機科學的關係越來越緊密了,但關於程式設計方面的技能需求目前主要可能是在資料探勘方面,因為生物學和基因學是實實在在的大資料。