資料處理與分析是高通量代謝組學研究的核心環節之一。隨著檢測裝置的快速發展和多組學技術的聯合應用,資料規模和複雜程度呈指數上升。
為有效地利用和挖掘資料中蘊含的海量生物學資訊,需要不斷改進現有資料分析方法,研發新方法,開發綜合型自動化分析平臺,為基於代謝組學的機制和轉化研究提供生物資訊學支援。
當前,眾多免費或商業的,桌面或基於 web 的,獨立或綜合的工具已經被開發,但仍然缺少一款功能全面且使用方便的整合化資料分析平臺來滿足代謝組學的資料處理需求。
此外,隨著各種組學的日益成熟,多組學整合研究越來越受關注,代謝組學與微生物組學的關聯研究順勢成為代謝組學研究領域的另一大研究方向和熱點。但多組學關聯分析仍侷限於傳統的統計相關性分析,如Pearson相關和Spearman秩相關等,缺乏專門針對組學資料集的相關分析策略。
為更好地為代謝組學研究提供強有力的技術支援,繪雲生物基於成熟先進的方法開發的針對色譜-質譜聯用代謝組學資料的整合分析平臺IP4M,為初學者和高階使用者提供一站式的資料分析工具。該研究於2020年10月發表在BMC Bioinformatics雜誌。目前,繪雲生物IP4M已獲得中國專利授權 。
IP4M:Integrated platform for mass spectrometry-based metabolomics
IP4M是一個功能強大、模組化、可定製、同時易於使用的代謝組學資料處理和分析整合平臺,免費版本適用於Windows、MacOS和Linux系統,有網頁版和單機版本。IP4M軟體目前提供62項功能,分為8個模組,涵蓋了代謝組學資料探勘的所有核心步驟。
IP4M分析流程和主要模組該軟體的分析流程由六個步驟組成,具體如下:
首先,在進行資料處理前,需準備正確的輸入資料檔案。“氣相色譜質譜資料預處理”模組和“流程化分析”中的“質譜資料預處理”功能要求輸入資料的格式必須為開放的資料格式,如mzML、mzXML 和 netCDF。使用者可以使用免費開放的proteowizard軟體中的msconvert工具,將原始資料轉換為通用的mzML或 mzXML 等其它資料格式。其它模組可以接受指定格式的逗號分割的文字檔案(即.txt)。
步驟 1:原始資料預處理。包括對 GC-MS 和 LC-MS 的原始資料進行預處理,得到峰值列表檔案。這兩者的預處理流程相似,主要由峰提取、解卷積(GC-MS)、 峰對齊和缺失峰填補等核心步驟組成。其中峰提取又包括基線校正、降噪和平滑。
步驟 2:物質鑑定。基於公共資料庫或實驗室自建庫,比對檢測物質的質量資訊和保留時間,或匹配其質譜資訊,鑑定未知代謝物。
步驟 4:統計分析。基於調理後的峰列表(peak table),對其進行基本的統計檢驗、差異分析和特徵選擇等。
步驟 5:通路分析。將篩選的差異代謝物或目標代謝物運用通路分析和通路富集分析,識別富集的代謝通路,衡量其受干擾的程度。
步驟 6:其它統計分析方法。包括對差異物或目標代謝物進行相關分析、距離分析、聚類分析,或構建迴歸模型,計算模型的靈敏度和特異性等。
IP4M 主要模組和分析流程
IP4M功能模組的構建和方法1.LC-MS和GC-MS資料預處理
該模組的主要功能是將 LC-MS 原始資料轉換成峰列表資料。具體包括峰識別、峰分組、保留時間校正、峰補齊和峰註釋等預處理步驟。IP4M 採用 metaMSR包中的 runLC()函式來完成上述步驟,得到一個包含保留時間 RT、質荷比(m/z)、同位素或加合物註釋和峰強度資訊的列表檔案。runLC()本質是 XCMS 與 CAMERA兩種方法整合的一個R函式,它既沿用了液相資料處理的經典方法XCMS以實現特徵峰的提取,又結合CAMERA R包,實現對同位素、加合物和碎片離子峰的註釋。相較於 XCMS,runLC()函式將每個步驟所需的引數全部包裝成集,實現高度整合,使操作更加便捷和高效。
IP4M又整合了兩種 GC-MS 原始資料預處理方法。metaMS中的 runGC()函式用於分析多個 GC-MS 資料檔案,並生成峰值列表。它的標準化分析流程為:
第一步,對所有資料檔案進行提峰,然後根據保留時間對這些峰進行分組,得到單個化合物所對應的譜圖資訊。
第二步,根據化合物的質譜資訊與資料庫進行比對,得到具體的物質資訊。
eRah是近年來開發的一種針對 GC-MS 資料的峰拾取演算法,它的最大特點是基於盲源分離法(blind source separation, BSS)使用多元統計分析技術對 GC-MS 色譜資料進行解卷積,降低了解卷積的複雜程度,提高了分析速度和準確度。
2.物質鑑定
IP4M 支援公共資料庫和自建資料庫來實現物質鑑定。現納入的公共資料庫包括人類代謝組資料庫(Human Metabolome Database,HMDB)、Golm 代謝組資料庫(Golm Metabolome Database,GMD)和美國國家標準與技術研究院資料庫(National Institute of Standards and Technology,NIST)等,共約 15000 個化合物。
基於精準的分子質量(用於 LC-MS)和質譜高度相似性(用於 GC-MS) 原則,分別將這些資訊與公共資料庫或自建庫的代謝物資料進行匹配。保留時間(retention time,RT)作為一個可選標準,用於與自建庫(包含物質 RT 資訊)相匹配的 LC-MS 物質鑑定。
IP4M 為 GC-MS 提供點積法(預設)和歐式距離計算質譜間的相似度,預設的最小相似度為 0.7,最大的保留時間窗為 0.2min;LC-MS 的預設最大百萬分率(parts per million,ppm)為 10,最大保留時間窗為 0.2min。
3.資料調理
該模組整合了大量簡單實用的資料處理工具,如離群值處理、缺失值填補、歸一化、資料轉化、資料結構預處理、基本統計量計算等功能,具體功能和處理方法如下表:
IP4M還提供對數變換和zScore變換使資料偏向正態分佈,降低乘性噪聲。此外,還集成了矩陣轉置、目標行檢索、樣本或變數組合、基本統計計算等小功能,以方便分析、整合、認知資料及其結構。
多變數質控圖
4. 統計分析
該模組的主要目標是尋找差異代謝物,並提取有用的特徵變數作為生物標誌物。將單變數統計分析和多維統計分析(包括機器學習方法)聯合使用可以有效提高分析效度。具體包含的方法總結如下表:
OPLS-DA得分圖及置換檢驗圖
5. 通路分析
將統計分析得到的差異代謝物作為通路分析的輸入,進一步分析潛在的差異代謝通路,尋找不同生理病理狀態下具有重要生物學意義的潛在生物標誌物及代謝通路。
本模組基於 MetaboAnalyst 4.0平臺相應的分析策略、演算法及通路資料庫,構建通路富集分析和通路拓撲分析。在此基礎上,IP4M在兩方面進行了擴充套件和改良。
另一方面,IP4M 提供了7種節點中心性演算法,包括原始平臺的出度中心性和中介中心性,和5種新增的度中心性、接近中心性、出-接近中心性、入-接近中心性和特徵向量中心性。
該模組由三部分內容組成。
第一部分:為目標代謝物或差異代謝物的基本資訊檢索,需要以代謝物名稱作為輸入,然後與多個公共資料庫進行匹配,得到其相應的 ID號、物質名、分子式、分子量和所涉及的全部代謝通路。
第二部分:是廣義的代謝通路分析,包含了67種模式生物,涉及共 5871 條代謝通路資料集,主要對差異代謝物進行通路富集分析以求得富集通路受影響的顯著程度(即p值),同時進行通路拓撲分析求出該通路受影響的嚴重程度(即 Pathway Impact 值),其輸入為上游的代謝物匹配檔案,輸出為富集得到的通路、p值和通路受影響程度,以及視覺化圖。
第三部:分為富集分析,該部分專為人群樣本而設計,所提供 的資料集合細化到人類在不同病理(疾病狀態)、生理,不同組織器官(血液、尿液、腦脊液等)和用藥狀態下的所有代謝通路資訊。
Predicted metabolite sets庫通路富集分析條形圖
6. 其它統計分析方法
除常規的代謝組學資料分析方法外,IP4M還整合了多種通用功能,包括相關分析(自相關和互相關)、聚類分析、距離分析、線性迴歸分析、ROC分析、效能和樣本量估算以及一些繪圖工具。
相關方法包括 Pearson 相關、Spearman秩相關、Kendall相關和偏相關。子聚類分析將輸入的變數分為幾個類,並顯示出每個聚類在樣本/組之間的方差。
另外還提供7種常用的距離度量方法和7種聚類演算法。
距離度量方法:
Euclidean, correlation, Minkowski, Canberra, binary, Manhattan, maximum
聚類演算法:
ward, single, complete, average, mcquitty, median, centroid
差異代謝物彙總
與現有工具的功能比較對於 MS 資料的預處理,IP4M分析能力與其它軟體相當,甚至優於其它平臺。除MS資料預處理功能外,資料調理、統計分析、通路分析等也對實驗結果的獲取十分重要。
IP4M在這三個主要環節都提供了經典或核心演算法和各種可選方案,同時也保障了高質量的繪圖和視覺化。
對於通路分析和通路富集分析,它整合了大多數模式生物相關的代謝通路資料庫,以及為通路分析提供7種拓撲分析演算法。
此外,高階分析功能模組中提供了更多實用的工具,它們有助於進一步探究和挖掘生物學價值,如迴歸分析、ROC分析等為潛在生物標誌物的模型構建提供了方法。
IP4M的優勢在於它具有全面的功能、穩定的效能、簡單易用的軟體平臺,為代謝組學資料的一站式分析提供了強有力支援,可以作為代謝組學資料探勘的一個強有力的工具。
團隊發表的相關文獻:
Dandan Liang, Quan Liu, Kejun Zhou, Wei Jia, Guoxiang Xie, Tianlu Chen. IP4M: an integrated platform for mass spectrometry‑based metabolomics data mining. BMC Bioinformatics. 2020, 21:444.