編譯/文龍
化學反應是將反應物轉化為一種或多種產物的過程。在藥物化學合成工具箱中,目前有數百種不同型別的反應可供選擇,並且這一數字還在不斷增長。這些合成方法通常以「人名反應」的形式命名,以表彰合成方法的發現者、促進科學家之間的相互交流。實際上,影響下一步生成何種產物的因素有很多,關鍵是如何選擇最合適的合成路線。
IBM研究院的團隊開發了一種能夠自動分類這些有機化學反應的機器學習方法。該研究以Mapping the space of chemical reactions using attention-based neural networks為題發表在《自然機器智慧》(Nature Machine Intelligence)雜誌上。
原先的方法是使用適用於分子反應資料庫的特製規則對反應進行識別和分類。反應機制的規則集通常由專家人工制定,並以SMIRKS格式儲存。SMIRKS是一種通用的反應轉換語言,但學習起來相當複雜(部分原因是SMIRKS滿足一些相互矛盾的要求)。因此,世界上很少有人能夠編寫有含義且正確的SMIRKS語句。透過使分類過程自動化,制定明晰的規則這一難題將留給機器。此外,自動化和機器學習有可能提高分類過程的準確性和頑健性。
為了瞭解不同反應之間的化學基元的區別,研究團隊使用基於注意力(attention)的神經網路演算法,該演算法通常用於自然語言處理領域。實驗結果表明,序列到序列(seq2seq)模型和基於變換器的雙向編碼器表示技術(BERT)都能夠準確預測和分類化學反應類別。
神經網路需要大量的訓練資料才能可靠地工作。儘管在公司和公共資料庫中都有大量化學反應資料可用,但資料儲存的格式往往不一致,與標準的機器讀取格式不相容。研究表明基於Transformer的模型可以從沒有註釋的化學反應文字表示構成的大型資料庫中推斷反應類別。該模型透過使用無監督學習來構建反應空間,從而可以使用有限的標記資料來構建準確的反應分類器。
論文的主要作者是Philippe Schwaller表示,他們的BERT模型所學習的表示形式可以用作反應指紋。反應指紋的優點是它們不需要原子對映,可以用於非結構化資料;另一個優點是與反應中涉及的分子數無關。並且,這些反應分類中的指紋數量比參考的指紋數量高出兩倍,可用於在人名反應空間中有效地搜尋和查詢相似的反應型別。作者利用這一點建立了一個互動式反應圖集,對化學反應進行視化聚類,增強了可解釋性。該專案目前還處於初期階段,但已經有研究團隊使用它建立了芳香族親核取代反應的反應圖,並能夠將具有相同親核原子和離核原子的反應進行聚類。
開發這種工具是一項值得稱讚的舉措。過去,儘管有機化學家已經擁有多種分子設計的工具,但可用於幫助計算化學家進行化學合成的工具卻很少。為了決定分子在藥物化學實驗室中的合成方式,計算化學家需要學會有機化學家使用的語言。未來,藥物化學家將需要精通計算機輔助的分子設計和化學合成。
論文連結:https://www.nature.com/articles/s42256-020-00284-w
專案地址:https://rxn4chemistry.github.io/rxnfp/
參考內容:https://www.nature.com/articles/s42256-021-00299-x#ref-CR2