引言
在傳統藥物設計中,在確定了一個靶點後,研究人員常使用高通量篩選、虛擬篩選等技術尋找苗頭化合物。以迴圈神經網路為代表的一系列分子生成模型,具有一定的藥物設計能力,可以生成滿足Lipinski規則等許多性質的候選化合物。研究人員繼續使用分子對接和藥效團模型評估生成的分子與靶點的親和力。
作者本次將上述兩種方法相結合,從大規模的化合物庫中篩選出匹配藥效團特徵的分子,以這些分子作為輸入,訓練分子生成模型。最後用藥效團篩選生成的分子,得到一批候選化合物。作者使用DUD的6個靶點做測試,結果表明該方法產生的分子在5個測試案例中優於對照化合物庫。
圖1. 六個測試案例中建立的藥效團模型
圖2. 藥效團與最佳抑制劑的結合模式
結果
1. 藥效團模型的建立與化合物篩選
作者選取了乙醯膽鹼酯酶(AChE, PDB:4EY7)、雄激素受體(AR, PDB: 1XQ2)、糖皮質激素受體(GR, PDB:1M2Z)、過氧化物酶體增殖物啟用受體-γ(PPARγ, PDB: 1ZEO)、多聚ADP 核糖聚合酶(PARP,PDB:1EFY)、孕激素受體(PR, PDB: 1SR7)六個靶點做方法測試。作者首先使用薛定諤軟體預處理蛋白,接著在AMBER執行10 ns的分子動力學模擬,找到空腔中含有水分子最多的1埃球體的座標。在刪除球內的水分子後,使用能量、氫鍵等熱動力學的引數,評價這些座標作為藥效團特徵的可行性,並選出關鍵的4-8個藥效團特徵(如圖1所示)。其中的能量包含了系統能量、轉化熵、取向熵等多種指標。最後使用富集率度量藥效團模型,並與已知的陽性藥對比,證明了藥效團模型的合理性(如圖2所示)。從ZINC15資料庫得到了12934474個化合物,這些化合物的分子量在200-500,logP在-1和5之間。每個化合物使用薛定諤的ConfGen模組生成50個3D構象,並存入Phase資料庫中。考慮到模型訓練需要足夠多的樣本和時間的成本,作者使用藥效團模型篩選化合物庫時,調整篩選條件使得選出的分子數在2萬到10萬之間。如果篩選出的化合物數量超過了10萬個,則隨機選出10萬個化合物。
2. 使用模型生成化合物
LSTM是傳統RNN模型的一種改進形式,能有效解決傳統RNN中梯度爆炸和消失的問題。在RNN模型中,分子通常被表示成SMILES的形式,並經過獨熱編碼成一個矩陣,最後輸入模型中訓練。這種表示方法在之前的文獻已有報道並取得良好的效果。作者本次使用的神經網路由兩個LSTM層和一個全連線層組成。篩選出的分子被隨機分成了訓練集和測試集,訓練集中含有75%的分子,測試集中含有了25%的分子。所有層的啟用函式都是ReLu,採用交叉熵作為損失函式,梯度下降則採用了Adam演算法,學習率初始設定為0.005,最多訓練1000輪(如圖3所示)。當損失下降過快時,學習率減半,避免過早收斂,陷入區域性極小值。在訓練過程中,監測模型在訓練集和驗證集上的損失。隨著訓練進行,損失會逐漸縮小,收斂到一個值(如圖4所示)。當訓練完成後,使用模型生成新的SMILES。每次生成的SMILES會與之前的SMILES相比較,如果相同或者無效,就會被丟棄。這保證最後能生成10萬個不同的分子(如圖5所示)。
圖3. 分子生成模型和訓練後學習後的模型
3. 生成的分子具有靶點特異性
藥效團模型從化合物庫中預先篩選出的一批分子,作為分子生成模型的訓練集,使得生成的分子具有靶點特異性(如圖6所示)。對不同的靶點,都要單獨訓練一次模型。另一個方案是先訓練一個通用的分子生成模型,進而生成一批差異化的分子,最後經不同的靶點的藥效團過濾得到新化合物。這個方案效率更低。使用預先篩選過的分子訓練模型,能縮小模型的取樣空間,對一個小空間的充分取樣更有可能發現新的化合物。還有一種方案是使用樣本對預訓練好的分子生成模型做遷移學習。這個方法適用於樣本量少的情形。此次藥效團篩選後依舊有充足的分子,因此不使用遷移學習。
圖4. 六個測試案例中模型在訓練過程中在訓練集和驗證集上的損失變化曲線
圖5. 從模型生成分子的流程
4. 藥效團篩選生成的分子
在已有的化合物庫中,匹配藥效團的分子比例不超過5%,但是在生成的化合物中,匹配藥效團的分子比例增長了近四倍。之前篩選化合物時採用了較為寬鬆的標準。本次為了得到候選化合物,提高了篩選標準。在PR和PARP測試案例中,雖然藥效團距離誤差依舊在1.5埃,但是要求匹配所有藥效團特徵。最後分別得到了1個和37個候選化合物。值得注意的是,在PR測試案例中,採用同樣標準篩選ZINC15庫,沒有找到符合條件的分子;但是在10萬個生成的分子中找到了1個匹配藥效團模型的分子。在PARP測試案例中,從1200萬個分子的ZINC15僅篩選出63個分子,從生成的10萬個分子中就能找到37個。這表明該方法能有效生成結合特定靶點的全新化合物。在AChE和PPARγ靶點的測試中,稍微降低篩選標準,至少匹配6個藥效團中的5個,分別篩選出18個和173個分子。
圖6. 生成具有靶點專一性的分子的整體流程
5. 評價生成的分子質量
為了快速預測分子的結合自由能和結合構象,作者採用Glide對接了生成的分子。作者還選取了文獻報道的陽性化合物,從DUD中為各個靶點選取了陰性對照分子。除了PPARγ外,其他測試案例中生成分子的平均結合能低於陰性對照,表明生成分子更加匹配結合位點。在AR、GR、PR和PARP的測試中,新生成的分子的平均結合能更是低於陽性化合物,甚至有些分子的結合能比最佳陽性化合物更低,可見生成分子與靶點的結合能力與陽性化合物相當。在AChE和PPARγ的案例中,生成的分子結合能依舊高於陽性化合物。作者推測是兩個靶點的結合位點較大,生成的藥效團不連貫導致的。因此,這套方法更適用於基於片段的分子生成。此外,作者發現增加生成分子的數量,比如達到10萬以上,有望找到比陽性藥結合能更低的化合物。
作者在評價分子的結合能後,繼續評價分子的新穎性。作者計算了生成分子的Morgan指紋並計算了Tanimoto分子相似度。從分子比例上看,生成的大部分分子(AR, 97%; GR, 99%; PR, 99%; PARP 100%)的相似度低於0.7,滿足新穎的要求。從總體的相似度上看,生成的分子與陽性化合物差異性較大,AR、GR、PR的平均相似度低於0.3(如圖7所示)。雖然生成的分子與已知分子或是陰性對照分子不同,但是它們與陽性化合物在結合位點處有著相似的結合模式(如圖8所示)。比如生成的分子在PARP(PDB: 1EFY)的構象與共晶複合物的配體有著相似的相互作用,與Gly863形成氫鍵作用,與Tyr907形成π-π堆積作用。共晶中的配體結合能是-7.364 kcal/mol,生成的分子的結合能是-8.070 kcal/mol。
圖7. 結合能超出均值的化合物的相似度分佈圖
圖8. 生成的分子與PARP抑制劑的結合模式對比
本次研究證明藥效團與RNN架構的分子生成相結合,能生成全新的靶點特異性化合物,這些分子在分子對接中展現出對靶點的親和力。這種藥物設計方法有望快速找到具有潛力的苗頭化合物。在六個靶點的測試案例中,生成的分子在五個案例中比陰性對照展現出更低的結合能。這個方法可以從生成的分子中找到具有靶點親和力的化合物。如果能夠從模型中無限生成化合物,那麼這將大大提高早期新藥發現效率。這個方法不僅是與基於受體的藥效團模型結合,也可以推廣到與基於配體的藥效團模型組合生成新的分子。此外,這個方法與基於片段的藥物設計策略相結合,有助於在大結合位點上的藥物設計。
參考文獻
Minsup Kim, Kichul Park, Wonsang Kim, Sangwon Jung, and Art E. Cho, Journal of Chemical Information and Modeling, 2021, 61 (1), 36-45. DOI: 10.1021/acs.jcim.0c00757