生信資料庫
“大資料”時代已經降臨,在商業、經濟及其他領域中,決策將日益基於資料和分析而作出,而並非基於經驗和直覺。在生物學領域,大資料的整合分析更是亟不可待。在大資料時代,如何充分利用資料,讓資料不再沉睡?如何結合自己的資料和已有的資料比較分析、充分挖掘資料的意義?如何基於臨床研究設計科研課題,整合多組學資料,形成科研論文?
這些問題都需要靠生物資訊學來解決。生信學習入門不易,網上能夠找到的資料支離破碎,需要耗費大量時間自學才能領悟一二,這顯然不符合醫生科研精力不足的現狀。為此,小編特意為大家整理了常見生信資料庫的使用合集!(資源領取方式見文末)
一
StarBase
starBase v3.0可以從多維測序資料中識別出超過110萬個miRNA-ncRNA、250萬個miRNA-mRNA、210萬個RBP-RNA和150萬個RNA-RNA相互作用。並且,基於32種癌症的10,882個RNA-seq和10,546個miRNA-seq的基因表達資料,研究人員還能用starBase v3.0對RNA-RNA和RNA-RNA相互作用進行泛癌症分析。starBase v3.0還允許平臺對miRNA、lncRNA、mRNA、偽基因等進行生存和差異表達分析,功能非常強大。
二
R語言
R語言能夠“無中生有”透過挖掘和統計分析獲得可用於發表SCI的研究資料,故追求者眾。掌握此技能,年輸出SCI過3篇並不罕見。如此給力的科研技能,當然不是隨隨便便就能學會的。
市面上幾千塊的生信培訓班,聽的時候感覺都懂,自己實操每一步都會卡殼。錢多錢少,並不是能否學會的衡量標準。
利用R語言繪製的精美影象
三
GEO資料庫
Gene Expression Omnibus(GEO)是一個儲存高通量功能基因組學資料的資料庫,這些高通量功能基因組學資料來自晶片和新一代的測序儀得到的試驗資料。GEO除了收錄基因表達資料之外還收錄其它資料,例如基因組複製數變異資料、基因組-蛋白相互作用資料以及基因組甲基化資料等。
GEO資料庫被分為兩個部分收錄在Entrez中,分別是GEO Profiles資料庫(它負責收錄一個基因在一次試驗中的定量基因表達資料)和GEO DataSets 資料庫(收錄整個試驗的資料)。目前,GEO資料庫共收錄了由世界各地的實驗室提交的超過1871121個樣本試驗資料,16088個晶片平臺記錄,71339種實驗專案以及3848種研究型別的基因表達譜資料。
四
KEGG資料庫
訊號通路是基礎科研的精粹所在,而掌握通路浩瀚資料的鑰匙就是KEGG(Kyoto Encyclopedia of Genes and Genomes)。KEGG——京都基因與基因組百科全書,是日本京都Kanehisa Laboratories根據文獻證據手工整理的一個龐大資料庫(包括訊號通路、基因、疾病、藥物等等)。
KEGG有別於其他資料庫的一個顯著特點就是具有強大的圖形功能,它利用直觀圖形而不是繁縟的文字來介紹眾多的代謝途徑以及各途徑之間的關係,簡單明瞭。但初見KEGG也不是這麼好用的,因為日本人清奇的腦回路,很(sang)貼(xin)心(bin)的(kuang)在網站裡放了16個子資料庫。
五
部分資源展示
資料視覺化
ChiRP和CHART
部分目錄展示
資源領取方式