近年來生命科學領域的資料量呈爆炸式增長的趨勢,包括基因測序、臨床檢測、冷凍電鏡、腦科學等。資料的爆發增長導致了資料和資料分析方式呈現出多樣化的特徵,而這些“多樣化”特徵是多個層次的,如何解讀生命科學領域資料多樣化帶來的一系列挑戰,成為了業內及資料系統公司需要解決的一大難題。
資料型別的“多樣化”第一個層次的“多樣化”是資料型別的多樣化。
這包括動植物基因組學資料、醫學臨床資料、結構生物學研究中冷凍電鏡產生的蛋白和大分子結構資料,甚至還包括由3D基因組學發展而來的3維基因空間結構資料。多樣化的資料型別,讓能夠觀察到和分析出來的資料特徵越來越多樣化。
除了門、綱、目、科、屬、種、變異、突變、臨床表徵等,越來越多維度的資料特徵進入了生命科學研究工作者的視野中。如何從多樣化的資料特徵中發現數據、利用資料特徵生成多維度資料集合,對資料的管理提出了相當高的要求。
非結構化資料的“非結構”特性本身造成了管理上的困難,同時海量資料的特徵越來越豐富,數十億級別的資料加上每個資料都可能有多個不同強關聯的特徵,而利用關係型資料庫加資料路徑實現的傳統LIMS系統來進行資料管理的方式,其擴充套件性差、海量資料強關聯搜尋效率極低並且難以分析的弱點也逐漸被暴露出來。
針對這一現象,極道的新型資料管理系統能夠利用分散式圖技術對資料進行大規模強關聯實時資料特徵管理,解決生命科學領域使用者的多樣化資料特徵的痛點,有序管理、快速搜尋、生成多維度資料檢視。
資料計算模式的“多樣化”第二個層次的“多樣化”是資料計算模式的多樣化。
傳統的生命科學領域無論是基因測序還是冷凍電鏡資料,通常採用的是批次計算或者高效能計算的工具和演算法。但是隨著計算技術的發展,計算模式的不斷進步,更多新型方法實現的演算法和工具加入到生命科學相關領域的研究和生產中。比如測序領域的GATK4spark和一些其他的基於大資料MapReduce技術實現的演算法工具誕生,導致生命科學使用者傳統的單一HPC叢集已不能滿足計算的需要。而近兩年AI技術的興起,Google的DeepVariant、Nvidia的Clara等基於人工智慧的生物醫學平臺帶來了更多新型分析生物資料的工具和演算法,各種異構的計算模式也給生物資料處理和分析帶來了很大的挑戰。
如何改造傳統的計算基礎架構?構建和運維獨立割裂的HPC叢集、大資料叢集、AI叢集並不是最有效的解決方法。多樣化的計算模式帶來了資源上的壁壘,資源利用率和運維的複雜度也成為了生命科學研究工作者需要解決的難題,而更為重要的是,新技術誕生並不能一次性的顛覆所有以前的演算法實現。
因此可以預見,未來,多樣化模式實現的演算法將會長期共存。一個複雜的生物資料分析流程很可能會同時涉及到批次計算、高效能計算、MapReduce和深度學習相關的各種演算法。
在這種情況下極道Achelous計算系統誕生了。Achelous透過共享硬體的一套叢集,動態地構建多模式計算框架、利用智慧執行引擎協助生命科學領域使用者構建高效率、混合演算法的資料流程,有效的解決計算的多樣化需求。
計算硬體需求異構化第三個層次的“多樣化”是計算硬體需求的異構化。
隨著生命科學領域計算模式的樣化,計算硬體也在迅速發展。除CPU以外,GPU、FPGA等稀缺計算資源也加入了進來,以滿足複雜和高速的資料分析處理。
解決異構計算資源的共享和排程問題,需要足夠智慧的計算平臺。例如GPU如何根據拓撲排程化零為整、如何根據視訊記憶體排程化整為零?極道的計算系統Achelous能夠面對異構硬體平臺,根據不同稀缺計算資源的特徵設計高階排程策略,儘可能把稀缺計算資源的利用率發揮到極致。
多種演算法模型共存第四個層次的“多樣化”是多種演算法模型帶來的的多樣化。
在生物資訊分析計算過程中,一套系統會同時存在多種演算法模型的執行例項,而每個演算法的實現都對資料存取有不一樣的要求,有的要求吞吐、有的要求Ops、有的要求元資料訪問的延遲,多樣化的IO模式給資料存取效率帶來了很大的挑戰。面對這種多樣化的IO儲存模式,儲存需要進行相應的最佳化和動態調整,才能滿足資料分析的需要。
比如計算叢集登陸節點互動操作多,要求資料和元資料的訪問延遲,而計算節點很可能一段時間內是吞吐密集,另一個演算法同時需要求高的Ops。解決這種多IO模式共存情況下資料存取的效能,需要計算系統和儲存系統的協同,極道獨創的“應用感知”理論,其目的是要儲存系統透過高階策略根據應用演算法多樣化IO模式進行實時調整,儘可能把儲存的資料存取效能在多樣化計算過程中發揮到極致。
事實上,生命科學資料所面對的四個層次的“多樣化”,在很多的行業中都有共性表現,面對“多樣化”挑戰,需要各種各樣的“門道”。極道有“道”,能夠用產品和優勢技術把所有的“道兒”都發揮到極致。
這就是極道作為一個數據系統公司與傳統的儲存公司、或者IT系統公司的不同之處。極道不僅站在系統公司的角度設計和研發產品,更重要的是還能夠深度理解行業應用、根據行業使用者的真實資料需要設計產品,來迎接行業所面臨的多樣化資料挑戰。
目前,極道的資料系統產品在國內外頂級的基因公司、臨床檢測公司、國家級科研機構、藥物研發等領域廣泛應用,並收穫眾多客戶好評。未來,極道仍將不斷提供創新的技術與產品,為生物基因技術的快速發展發揮重要作用。
關於極道
極道,專注於資料“存”、“管”、“算”的創新資料系統公司,由國內頂尖的儲存和資料分析專家團隊組建。以分散式並行檔案儲存、強關聯大規模實時資料管理系統,以及叢集的排程系統和執行引擎為核心產品,滿足企業對資料處理、分析和建模的多樣化需求,幫助客戶迅速提升IT資源效率,將海量非結構化資料轉化為真正的資料資產。