他們選擇的基礎資訊是這些小分子化合物的質譜資料。在以往研究中,分子網路(Molecular networking)是將串聯質譜(MS/MS)碎裂片段關係視覺化的常用方法,早在2012年就被引入學術界。質譜資料的相似性暗示著化學結構的相似性,因此化學結構資訊能夠以分子網路形式表現,化學關係也變得視覺化。Dorrestein教授此前曾與UCSD的同事們以此為基礎構建了網路平臺——全球天然產物分子網路(GNPS) [1,2]。然而,要在整個資料集範圍內以及在多種樣本元資料的背景下推斷化學關係,分子網路方法還顯得力有不逮。
為滿足這一需求,Dorrestein教授團隊從分析DNA序列資料的工具中獲取靈感,開發出一種名為Qemistree(英文“化學樹”的發音)的軟體工具,從質譜資料預測分子指紋並基於此構建化學樹來視覺化地表示化學關係。他們在Qemistree中使用SIRIUS16 和 CSI:FingerID13 獲得預測的分子指紋,並使用這些分子指紋計算化學特徵和層次聚類之間的成對距離,隨後使用ClassyFire23 對分子進行五級化學分類(化學域、超類、類、亞類和直接父本體),最後用例如 iTOL24這樣的系統發育工具構建視覺化分子“化學樹”。
接下來是Qemistree的各種驗證。首先,為了驗證基於分子指紋的化學樹可以正確捕獲分子間的化學關係,作者設計了使用四個不同的生物標本(兩個人糞便樣品、番茄幼苗樣品和人血清樣品)的評估資料集。他們將4個標本組成二元、三元和四元混合物,且成分比例不同。樣品使用不同色譜洗脫梯度進行兩次質譜實驗,引起兩次色譜保留時間漂移。隨後使用Qemistree將不同色譜條件下的質譜資料對映到一個分子指紋,並以樹狀結構進行組織呈現(下圖)。由於分子指紋與保留時間漂移無關,因此質譜基於其化學相似性聚類。Qemistree分析顯示,不同色譜洗脫梯度下,基於分子指紋的化學特徵被安排在相鄰的點,並不受保留時間漂移影響。這些結果表明 Qemistree 適用於從不同條件下獲得的資料集的比較。
隨後,他們展示了Qemistree在代謝組學中的應用。如下圖a所示樣品1-3,傳統代謝組學統計分析模式沒有考慮到資料集內分子間的化學關係,導致樣品2和3中的糖類分子相互之間的化學關係以及它們與樣品1中脂類分子與之間的化學關係距離相同(下圖a左側),這顯然是不合理的。當他們使用基於化學樹的一系列方法進行化學資訊比較分析時,可以看到樣品1和樣品2、3存在化學差異(下圖a右側)。接下來,對評估資料集(包括純樣品和樣品混合物,N = 162)進行主座標分析(principal coordinates analysis, PCoA),忽略化學樹結構(圖2b)的PCoA效果遠比使用化學樹的Qemistree PCoA(圖2c)差。
最後,他們利用全球食品組學資料庫 [3] 收集的食品樣品進行化學成分多樣性研究,以驗證Qemistree廣泛適用性。由於食物中大多數分子都未註明,因此要理解不同食物之間的相互關係極具挑戰性。他們選擇了代表動物、植物和真菌的各種各樣食物型別,使用基於Qemistree的一系列化學資訊學研究工具,在化學樹分支中標記食品中的不同化學成分,如類黃酮、生物鹼、磷脂、醯基肉鹼和O-糖基化合物等。結果表明化學樹與樣本元資料吻合,並揭示了每種樣品型別含有不同的化學分類。例如,代表醯基肉鹼的分支只在動物源食品中發現;相比之下,蜂蜜雖然也被歸為動物源食品,但其大部分化學成分與植物源食品相同,這表明了蜜蜂以植物花蜜和花粉為食物。此外,在蜂蜜和植物源食品中都發現了類黃酮,但在其他動物源食品中則沒有此發現(下圖)。
有意思的是,他們的研究物件也包括了成分複雜的食品,比如含有藍莓、牛奶、細菌和酵母等的藍莓Kefir(一種發酵乳飲料),還有西班牙紅腸炒雞蛋(scrambled egg with chorizo)和陳皮雞(orange chicken)。分析結果可以看出,一些特徵性代謝物來源於特定的原材料,例如來自雞蛋的磷酸乙醇胺存在於炒雞蛋(下圖b)中,但不存在於其它兩種食品(下圖a、c)。他們利用“化學樹”還發現了在食品的最初配料表中沒有註明的新增成分,例如,他們發現西班牙紅腸炒雞蛋和陳皮雞中含黑胡椒,但是相關訊號未在藍莓Kefir中發現(下圖a)。
總結
Pieter C. Dorrestein 團隊的研究表明,從質譜資料預測分子指紋並基於此構建“化學樹”可以很好的表示化學關係並可視化,他們開發的Qemistree可以清晰地捕捉各種公共資料庫樣品的化學本體和分子間化學關係。這項工作的關鍵性貢獻是利用以往用於DNA測序分析的系統發育工具構建化學層次結構,來探索代謝組學資料。此外,Qemistree不僅可以比較一個數據集樣本中的化學資訊,還可以用於處理多個數據集樣本,這類似於大規模的基因序列樣品快速比較分析。因此,他們預計Qemistree作為一種資料組織和比較策略,將在全球分析化學、醫學、環境微生物、食品科學等領域有廣泛的應用前景。
Chemically informed analyses of metabolomics mass spectrometry data with Qemistree
Anupriya Tripathi, Yoshiki Vázquez-Baeza, Julia M. Gauglitz, Mingxun Wang, Kai Dührkop, Mélissa Nothias-Esposito, Deepa D. Acharya, Madeleine Ernst, Justin J. J. van der Hooft, Qiyun Zhu, Daniel McDonald, Asker D. Brejnrod, Antonio Gonzalez, Jo Handelsman, Markus Fleischauer, Marcus Ludwig, Sebastian Böcker, Louis-Félix Nothias, Rob Knight & Pieter C. Dorrestein
Nat. Chem. Biol., 2021, 17, 146–151, DOI: 10.1038/s41589-020-00677-3
參考文獻:
1. Wang, M. et al. Sharing and community curation of mass spectrometry data with global natural products social molecular networking. Nat. Biotechnol., 2016, 34, 828–837
https://www.nature.com/articles/nbt.3597
2. Global natural products social molecular networking (GNPS)
https://gnps.ucsd.edu/
3. Global FoodOmics initiative
http://globalfoodomics.org