你是CS本科,做生物資訊學應該有很大優勢。生物資訊學也分挺多研究方向,我就我比較熟悉的二代測序方向說一下。
二代測序主要是DNA和RNA樣品的測序。前期的核酸提取和建庫技術都比較成熟,常常可以交給實驗員或者公司做。但是用於提取核酸的樣品準備會根據研究課題的情況有所區別,不好一概而論。
我RNA做的少,下面就主要以DNA為例子說一下。RNA測序雖然有差別,但也大同小異。
目前DNA二代測序最熱門的還是illumina的短片段測序。基本的資料處理技術也比較成熟,現在研究比較熱門的幾個方面,也是可以進一步提升的幾個方面包括:
基因組學-怎樣更有效率地index大型基因組和更準確地將短片段map到大型基因組(一般幾個G的大小)上;
微生物組學-怎樣快速準確地獲取宏基因組的物種和功能資訊。這個與前者的區別在於,你用來mapping的reference不是單一的基因組,而是成千上萬的基因組,常常有幾個T的大小,因此對比對的效率以及記憶體的利用效率要求更高;同時也需要有很高的解析度來辨別來自不同物種的相似序列。
除了依賴於reference的比對之外,現在從頭組裝(de novo assembly)也比較熱門。從頭組裝的計算量巨大,也有很多技術上的障礙,即使是人類基因組的從頭組裝,也還有很大的提升空間。更復雜的就是宏基因組的從頭組裝了。單基因組測序組裝起來不過幾十個染色體;宏基因組組裝的是成千上萬的染色體。
以上這些新的生物資訊學工具的開發需要依賴有大量計算機專業知識的人員進行演算法的最佳化,並能夠寫出相應的程式。相應的,這些計算機專業的人員也需要懂得基本的生物分子學知識和詳盡的二代測序原理。
另一種生物資訊學研究更注重於資料的分析,這類研究需要從大量的資料中分析得到可靠的結論。對計算機知識的掌握要求比較低,一般熟悉linux系統下的命令列操作,熟悉一兩門高階程式語言,比如R和python,就可以了。但是這一類研究需要大量的統計學知識支撐,因此需要有較好的統計學基礎。同時,因為是研究具體的生物學問題,也需要掌握科學研究方法,嚴密的邏輯,和豐富的相關的生物學知識。
還有一個介於兩者之間的方向,主要依賴於統計學建模以及新工具的開發。這一類應用比較多的是在轉錄組測序或者甲基化組測序中,比對實驗組和對照組時間的差異。因為涉及到樣本大小,樣本內的資料校正,樣品間的資料校正,怎麼處理缺失資料,怎麼在樣本數量有限的情況下得到高準確度的結果等等。這一類本質上是生物統計學的應用,但是最終也需要計算機專業人員寫出相應的工具才能應用到資料上。
你是CS本科,做生物資訊學應該有很大優勢。生物資訊學也分挺多研究方向,我就我比較熟悉的二代測序方向說一下。
二代測序主要是DNA和RNA樣品的測序。前期的核酸提取和建庫技術都比較成熟,常常可以交給實驗員或者公司做。但是用於提取核酸的樣品準備會根據研究課題的情況有所區別,不好一概而論。
我RNA做的少,下面就主要以DNA為例子說一下。RNA測序雖然有差別,但也大同小異。
目前DNA二代測序最熱門的還是illumina的短片段測序。基本的資料處理技術也比較成熟,現在研究比較熱門的幾個方面,也是可以進一步提升的幾個方面包括:
基因組學-怎樣更有效率地index大型基因組和更準確地將短片段map到大型基因組(一般幾個G的大小)上;
微生物組學-怎樣快速準確地獲取宏基因組的物種和功能資訊。這個與前者的區別在於,你用來mapping的reference不是單一的基因組,而是成千上萬的基因組,常常有幾個T的大小,因此對比對的效率以及記憶體的利用效率要求更高;同時也需要有很高的解析度來辨別來自不同物種的相似序列。
除了依賴於reference的比對之外,現在從頭組裝(de novo assembly)也比較熱門。從頭組裝的計算量巨大,也有很多技術上的障礙,即使是人類基因組的從頭組裝,也還有很大的提升空間。更復雜的就是宏基因組的從頭組裝了。單基因組測序組裝起來不過幾十個染色體;宏基因組組裝的是成千上萬的染色體。
以上這些新的生物資訊學工具的開發需要依賴有大量計算機專業知識的人員進行演算法的最佳化,並能夠寫出相應的程式。相應的,這些計算機專業的人員也需要懂得基本的生物分子學知識和詳盡的二代測序原理。
另一種生物資訊學研究更注重於資料的分析,這類研究需要從大量的資料中分析得到可靠的結論。對計算機知識的掌握要求比較低,一般熟悉linux系統下的命令列操作,熟悉一兩門高階程式語言,比如R和python,就可以了。但是這一類研究需要大量的統計學知識支撐,因此需要有較好的統計學基礎。同時,因為是研究具體的生物學問題,也需要掌握科學研究方法,嚴密的邏輯,和豐富的相關的生物學知識。
還有一個介於兩者之間的方向,主要依賴於統計學建模以及新工具的開發。這一類應用比較多的是在轉錄組測序或者甲基化組測序中,比對實驗組和對照組時間的差異。因為涉及到樣本大小,樣本內的資料校正,樣品間的資料校正,怎麼處理缺失資料,怎麼在樣本數量有限的情況下得到高準確度的結果等等。這一類本質上是生物統計學的應用,但是最終也需要計算機專業人員寫出相應的工具才能應用到資料上。