大資料時代下,科學大資料已經成為科技創新和社會經濟發展的新動力。生物資訊學經過近30年的發展,從最初的基因組資料的收集和儲存,到利用數學建模和人工智慧思想,挖掘資料背後的生物學意義、對樣本資料進行合理分類、建立合理的二級和三級資料庫,再到利用比較基因組學的方法,透過短讀序列拼接、基因預測和功能註釋,已有一定的能力用於處理龐大複雜的基因組資料。2019年,科技部、財政部對原有國家平臺開展最佳化調整工作,透過部門推薦和專家諮詢,經研究共形成20個國家科學資料中心,其中包括國家基因組科學資料中心、國家微生物科學資料中心、國家人口健康科學資料中心等。我國是生物資料生產大國,生命大資料是人口健康和國家安全的重要戰略資源。然而我國生物資料面臨因儲存零散,缺乏系統監管而丟失和流失的問題,亟需建設我國自己的生命大資料儲存和管理體系。
現階段,科研院所、企業已經意識到資料的重要性,在不斷地投入基礎建設、硬體資源儲存和管理資料,並逐步向應用層拓展,充分挖掘大資料的價值。某研究所為了應對龐大的資料量購置了眾多的計算和儲存資源,然而卻沒有專業的IT人員進行統一的管理和最佳化使用,另外,生物資訊分析應用流程沒有標準化管理,命令列呼叫的生物資訊分析流程不能滿足所有人的使用,需要將流程進行視覺化封裝。隨著新購置高通量測序儀的投入使用,現階段計算儲存資源也已經不能滿足需求,需要進一步擴容。
實施時間:
基於上述案例背景,某研究所採購組學大資料分析平臺,與榮聯達成合作,專案實施重要節點如下:
2020年5月,組學大資料分析平臺平臺採購專案競爭性磋商;
2020年5月,組學大資料分析平臺平臺採購專案投標;
2020年6月,中標成功,雙方簽訂合同;
2020年6月,榮聯備貨、發貨;
2020年7月,到貨,榮聯技術人員到場實施;
2020年7月,與原有計算儲存資源進行統一協調;
2020年8月,生物資訊分析流程進行遷移、定製化開發、標準化、視覺化封裝;
2020年8月,平臺進行測試,聯調以及試執行;
2020年9月,平臺驗收成功。
應用場景
組學大資料分析平臺是專注於二代、三代基因測序資料以及組學資料的儲存、計算、管理和行業應用的一站式系統。系統包括Helicube計算排程引擎、生物資訊學分析工具和流程、本地化各類資料庫、Database.bio基因組瀏覽器以及視覺化生物資訊分析平臺。應用範圍涵蓋精準醫學、動植物、微生物、檢驗檢疫、農業等各領域組學分析。適用於以高通量測序技術作為主要研究手段的企業、醫院、科研院所機構。支援使用者本地化部署和榮聯生物云云端部署兩種方式。
此次協助某研究所搭建的組學大資料分析平臺主要應用於多組學的大資料分析挖掘平臺,整合生物資訊學分析平臺(全基因組測序、全外顯子測序、轉錄組測序、16s擴增子測序分析、宏基因組測序資料分析等),跨組學資料整合分析等技術平臺,同時具有規模化、高通量、大資料研究及技術整合的特點。
此平臺充分使用生物資訊學分析方法,以基因測序和雲計算平臺為技術手段來分析生命遺傳、變異等特性的研究平臺,是針對高通量測序下機資料的儲存、計算、管理、應用分析整體化的解決方案,平臺包含多種組學資料分析流程、工具、資料庫資源,視覺化的操作介面,更加便於使用者的使用。平臺不僅包含全面的組學分析流程,同時要求具備較強的資料計算、管理能力以及極強的併發處理能力,可以彈性對接雲計算資源。支援視覺化分析,也可支援命令列分析,可以為眾多科研任務同時提供分散式的計算、儲存、資料管理以及視覺化分析服務。
面臨的挑戰總結如下:
1.多套儲存環境和應用平臺需要統一管理;
2.生物資訊流程是命令列訪問,需要一定的專業基礎,不方便非生物資訊專業的科研人員使用,需要進行標準化、視覺化封裝;
3.新購置高通量測序儀投入使用,包括二代測序儀和三代測序儀,目前儲存單元不能滿足新上測序儀的分析需求;
4.長遠考慮,隨著業務量的增長,平臺需要可線上快速擴容;
5.需要對原有計算、儲存資源充分利舊。
資料支援
針對某研究所需求,配備專業的IT技術人員和生物資訊科技人員一同評估,設計合理的儲存、計算資源方案和生物資訊分析流程的個性化開發部署。
儲存資源:評估某研究所測序儀滿負荷執行時一年產生的下機資料量,大約PB級;初步先按照30%負載進行儲存設計規劃儲存空間。儲存空間具備橫向、縱向擴充套件性。原有的儲存資源,可用作備份儲存。分散式儲存可以滿足計算儲存的需求,雙控制器橫向及縱向擴充套件模式,包括控制單元和儲存單元。
計算平臺:MGISEQ200以及MGISEQ2000等測序儀下機資料格式為fq,在雲平臺上進行資料質量控制以及後續的二次分析。需要新增計算資源納入雲平臺,用於下機資料的生物資訊學分析,統一使用雲平臺進行排程、管理。而原有的計算資源也要逐步遷移應用,納入雲平臺。進行統一管理。原有的伺服器在增加配件後也可納入雲平臺。
SaaS雲平臺:需要豐富的生物資訊分析工具和流程,可一鍵操作。支援多場景多元化資料分析,為生物資料探勘賦能。
應用技術與實施過程
基於某研究所現存裝置狀況及需求,設計整體的平臺數據架構。從基礎建設到應用層流程部署。
平臺數據中心架構:
一站式資料管理、生物資訊分析、資料釋出視覺化雲平臺:
根據某研究所資料量部署分散式儲存系統、分散式計算系統以及資料管理系統。
分散式儲存系統:
隨著分析演算法和工具的不斷豐富,不同分析階段訪問資料的模式也越來越多樣化,對於儲存的頻寬、IOPS和延遲等效能指標都有不同的需求,所以無法透過單一的儲存系統來解決生物資訊分析所面對的所有問題。正確的做法是在理解生物資訊分析應用的基礎上,做極致的效能最佳化,集合多套儲存系統,把他們有效的整合在一起,達到物盡其用的效果。透過與資料管理與計算系統的結合,使得資料不再僵化的儲存在一個統一的大池子裡面,而是能夠智慧的流動起來。為某研究所部署分散式儲存系統。
分散式計算系統:
隨著資料規模的不斷膨脹,運算的規模和複雜度也會不斷的增加,這就產生了很多問題:首先是規模問題,因為資料量大了,必然會遇到規模的瓶頸,突破規模瓶頸是“算”遇到的第一個問題;接下來需要對應用的感知,因為生物資訊分析所用到的流程和程式越來越多樣化,資料型別也越來越複雜,很難用傳統的計算排程方式來滿足。比如有些分析是浮點密集型的,而有些是多核併發的,對於前者需要用到高主頻的CPU,而對於後者則應採用眾核的系統。同樣,不同的儲存系統的特性也是不一樣的,不可能用一套儲存來滿足各種型別資料的儲存需要。所以對於算來說要能夠驅動應用感知,隨著計算的推演能夠選擇合適的計算和儲存資源。
資料管理MetaHunter:
實際上儲存系統只是解決了資料空間的問題,除此之外,還需要對資料進行管理。資料管理的物件是資料的描述資訊,即元資料,以及使用者定義的生物資訊相關資料,如:物種資訊,專案資訊,SNP 變異注視等等。需要具備的能力是對預定義的和實時根據策略提取的元資料透過建立的各種高階索引組織在一起,形成結構化/半結構化的資料,以供快速的根據特徵發現數據、動態組織資料集、多維度的對資料進行排序、挖掘,根據結果資料溯源分析流程及流程每一階段的工具版本。
元資料管理 —— 真正大資料感知,構建資料處理與業務創新的橋樑:
• 秒級資料發現:不再依賴資料儲存路徑,透過資料特徵(標籤)快速準確找到資料。
• 多維度資料觀察: 根據任意(工業或行業)屬性發現資料,使空間分配和調配更合理。
• 動態構建資料層次檢視:根據使用者需求可以瞬間生成全新的資料層級組織關係。
SaaS雲平臺——視覺化生物資訊分析平臺:
為了更好的幫助客戶搭建流程,榮聯派出生物資訊科技人員到某研究所駐場工作,完成生物資訊分析流程的開發、遷移、最佳化,整合大量生物資訊學流程和軟體。所有生物資訊學流程部署在雲平臺上並進行視覺化封裝,分析流程採用拖拽式即可完成部署,簡便易操作。助力某研究所高效獲取、挖掘和轉化生命科學領域資料價值。
雲平臺簡單易用,可以按需部署常用工具集和分析流程,也支援使用者自己對分析流程編輯,零程式碼基礎要求,拖拽式操作。作業狀態提醒支援系統訊息和郵件提醒。
平臺中以專案為管理單元,專案可分享協作。專案建立者可以加入專案成員並可控制權限。
同一個專案內可以共享檔案、流程和分析結果,實現多人團隊協作。方便團隊間多級許可權管理,使專案分配更加合理。
平臺在使用過程中計算資源支援彈性拓展,分析過程中需求用到多少資源,平臺能快速調配計算資源,並採用最優配置。
多層次安全防護,資料資訊全面安全保障:
• 資料加密傳輸,採用業界通用標準的安全傳輸協議;
• 雲端加密儲存,AES-256加密演算法;
• 嚴格的使用者許可權控制、多租戶資料嚴格隔離,完善的審計日誌;
• 符合HIPAA法案等多種監管條例;
• 為保障資料的完整性,對資料進行多重備份。
專案實施完畢後,視覺化生物資訊雲平臺能夠充分利用計算和儲存資源;內嵌的計算分析軟體無需擔憂相容性和版本衝突;擺脫繁瑣的命令列管理方式,透過全中文圖形化介面,讓生物資料的研究變得更加簡單、高效;此外,當可視化生物資訊雲平臺在研究所本地的計算資源不足時,可以彈性在榮聯IDC的視覺化雲平臺上完成生物資訊學的分析。
商業改變
商業價值:
1.使用雲計算、大資料、高效能計算、人工智慧、區塊鏈、5G、安全防護等技術,在演算法、算力上實現突破,確保資料安全可靠的同時推動生物資料的深入挖掘和資料共享;
2.在一套硬體資源基礎上即可動態構建雲計算、大資料、人工智慧、高效能計算等計算平臺,實現多種計算框架的融合、資源的統一管理和排程;
3.生物資料的敏感性、多樣性、應用的複雜性,可以透過IT平臺實現標準化資料安全及分級體系,自動實現資料分析的視覺化、以及資料管理的標準化;
客戶價值:
1.從傳統分析平臺遷移到榮聯分析平臺上以後,客戶的CPU資源擴充了2倍,但是資料分析交付能力達到了以往的6倍;
2.客戶的集群系統日常CPU利用率接近100%; 所有磁碟的使用率也超過了95%,將硬體的效能極限完全發揮了出來,基本上打滿物理網路頻寬和磁碟頻寬;
3.在分散式計算引擎的協助下,客戶一個作業的特殊階段輕鬆的被分解為4000路並行,每天有超過20000+ 任務執行在高度並行的計算集群裡;
4.利用強大的分散式執行引擎和流程編排引擎, 2個生物資訊分析工程師在1個月內,用200個工具開發了100+複雜的分析流程。
關於案例提交企業·榮聯科技集團:
榮聯科技集團股份有限公司(簡稱榮聯科技集團),是專業的數字化服務提供商,中國企業數字化服務的領導者。公司具有二十多年行業資訊化建設的豐富經驗,以雲服務、資料服務、自有產品和服務、資料中心建設四大板塊業務為主體,積極佈局物聯網、大資料、5G+邊緣計算、人工智慧等技術領域,為客戶提供IT+DT+OT全生命週期的數字化建設、生產、運營及服務。榮聯科技集團於2001年正式成立,2011年在深圳證券交易所掛牌上市,股票程式碼002642.sz。
榮聯科技集團生命科學事業部深耕生命科學領域,尤其生物資訊和精準醫療十五年,為基因資料研究、臨床應用研發了擁有自主智慧財產權的智慧資料作業系統(分散式儲存系統、資料管理系統、計算系統),快速變異檢測等生物資訊分析工具、流程和資料庫等,核心產品包括:NGS基因資料分析一體化解決方案、臨床輔助決策支援系統、組學大資料平臺、資料中心建設和SaaS雲服務,實現生物醫療與資訊科技的深度融合和創新應用。