引言
與高通量篩選相比,基於片段的藥物設計使用的化合物庫要小得多,但如此小的庫仍能有效地探索巨大的化學空間,而且片段往往具有較低的靶標親和力和較高的配體效率和更好的理化特性。除實驗技術外,FBDD常採用分子對接技術來確定單個分子與蛋白的潛在結合模式或者用於片段庫的虛擬篩選。目前只有少數小分子對接工具涉及到片段對接且相關資料早已過時或不可得。德國Björn Windshügel和Laura Chachulski構建了LEADS系列的第二個基準資料集LEADS-FRAG作為LEAD-PEP的補充,且評價了4款對接工具再現晶體結合模式的能力和打分效能。
基準資料集LEADS-FRAG的產生
晶體結構選擇使用KNIME分析平臺完成,第一步按以下條件從PDB資料庫中進行查詢:
i不含DNA,RNA或DNA/RNA雜合;
ii有實驗資料;
iii結構最多包含兩條鏈;
iv Rfree<0.3;
v解析度<2Å;
vi 配體的分子量在100~300Da。
共查詢到11639條代表唯一的蛋白質的資料。接著無偏差地除去僅包含緩衝分子或配體不合適的條目,該步驟使用ELD的過濾結構來實現,過濾之後僅剩1832個PDB,隨後去掉配體缺失/共價/明顯非特異性的條目後使用CD-HIT根據序列相似性做聚類分析得到162個聚類,基於共結晶配體的結構使用MOE的tanimoto得到101個聚類,最終剩下93個高質量的蛋白-碎片複合物。大多數碎片滿足RO3可旋轉鍵數≤3且PSA≤60Å2,平均分子量187.2Da,重原子數7~22,clogP在-4.1~3.5之間。所有分子描述符(logP, MW, SASA)都使用MOE計算得到且為避免干擾自對接,給所有配體重新生成座標。蛋白準備使用MOE的Protonate3D方法完成。
圖1. LEAD-FRAG的生成.
片段對接效能評價
待評測的工具有AutoDock, AutoDock Vina, LeadIT中的FlexX和GOLD。對AutoDock,和AutoDock Vina的SA和HA兩種不同的精度進行了測試,對GOLD的四個打分函式(ASP, ChemPLP,ChemScore和GoldScore)和FlexX的四個打分函式(FlexX-Score,ChemScore,PLP和ScreenScore)都單獨進行了測試。每次對接最多產生30個構象,選擇實驗結合模式與對接結合模式的均方根偏差RMSD來衡量效能。
就CPU對接耗時而言,AutoDock Vina SA表現出最快的對接速度(平均5.2s),其他均在10s以上,AutoDock對接最為耗時,平均為252.5s(SA)和2490.5s(HA)。當僅考慮最佳得分構象與晶體構象的RMSD時,GOLD(ChemPLP)是最準確的(1.0 Å ),AutoDockHA和FlexX的所有四個打分函式的測評結果RMSD均2.7 Å。當考慮30個構象中RMSD最小的構象時,平均RMSD與最佳得分構象相比有明顯降低,GOLD:CP表現最佳(0.6 Å ),緊隨其後的是GOLD:ASP, GOLD:CS和 GOLD:GS。當從對接工具準確復現結合模式(RMSD Å)的數目而言, GOLD(ChemPLP)表現最佳,其次是AutoDock Vina SA和GOLD:GS。最佳得分構象條件下復現率從33.3%(FlexX:CS)到53.8%(GOLD:CP),最小RMSD構象條件下復現率下從52.7%(FlexX:FS和FlexX:SS)到86.0%(AutoDock VinaSA)不等。
圖2. 不同對接工具和打分函式的總體均值RMSD情況.
圖3. 不同工具復現天然結合模式的能力.
最佳得分構象與最小RMSD構象之間的差異表明需要對所有對接構象最佳化以獲得相對於最佳得分構象而言整體的對接效能提升,使用GOLD的四個打分函式及一個外部打分函式Pliff重打分,ChemPLP對FlexX:CS產生的構象重打分時,Pliff將平均RMSD降低了,近天然配體結合模式的構象數量提高到40, 其他評分均對RMSD有所增加。
總結
本文使用合理且無偏差的程式KNIME建立了包含93種高質量蛋白-片段複合物的資料集LEADS-FRAG。另外,在此基準資料集上評估了4款對接工具。GOLD的ChemPLP打分函式在測評中表現最佳,AutoDockVina不同準確度的表現幾乎一樣,AutoDock和FlexX的片段對接效能較差。
參考文獻
Chachulski L, Windshugel B. LEADS-FRAG: A Benchmark Data Set for Assessment of Fragment Docking Performance. J Chem Inf Model 2020. DOI: 10.1021/acs.jcim. 0c00693