編輯/文龍
人工智慧(AI)正逐步被廣泛用於藥物研發中的各個階段。有人認為這會帶來新的機遇,但也有人對此持懷疑態度,等著看AI專案的笑話。現實則更像是介於兩者之間,人工智慧工具的介入可以為藥物研發人員帶來啟發與效率,同時也給開發新藥物的既定過程帶來了新的挑戰。
儘管人們對疾病生物學的理解有所進步,在技術上也取得了令人矚目的飛躍,但將新藥投入市場仍然是一個耗時且昂貴的過程,這在很大程度上是由於臨床試驗高失敗比例帶來的大量費用。因此,需要一些嶄新的思路、新的藥物發現過程以及其他創新的方法以較低的市場成本,為更多患者提供藥物。在這種情況下,計算機輔助的小分子藥物設計長期以來一直被認為是有競爭力的潛在候選人,而資料處理能力的提高和人工智慧工具的發展更是推動了該領域前進。關鍵問題是這種方法是否可以幫助我們更快更好地設計出小分子候選藥物。
在過去的二十年中,高通量篩選(HTS)推動了小分子藥物的發現,選擇最合適的經過實驗驗證的HTS命中資料進行隨機訪問對於藥物研發的成功至關重要。在選擇藥物和進行後續最佳化時需要考慮許多引數,包括在所需藥理學目標和潛在脫靶點間的效力和選擇以及對藥物藥代動力學和安全性來說可能很重要的理化特性。因此,藥物化學家通常面臨具有挑戰性的多目標最佳化(MOO)問題,其潛在的選擇遠遠超出了系統探索的可能性,並有越來越多複雜的資料集需要分析。
因此,在藥物設計中應用AI有吸引力的點在於,有可能開發資料驅動的隱式模型構建過程,以導航來自HTS的大量資料集並確定替代方案的優先順序。這表明決策權正在向機器智慧的部分轉移,可以視為與人類智力協同作用,也就是說,特定領域的隱式AI可以增強藥物化學家在藥物設計和選擇方面的能力。更有野心的使用AI進行藥物設計是從頭開始(de novo)自動生成具有所需特性的新化學實體(NCE),而無需通常價格昂貴的全套HTS。
為了取得長期的成功,使用AI的藥物設計必須解決五個“重大挑戰”:獲取適當的資料集、產生新的假設、在多目標中進行最佳化方式、減少週期時間、改變研究文化並樹立適當的心態。
將思維和機器整合在藥物發現中
獲取適當的資料集適當的輸入資料對於NCE的生成和決策建立有用的預測模型至關重要。如果沒有適當的資料集以及對這些資料的範圍和侷限性的理解,那麼即使是一個看似複雜的模型也將無法產生有用的結果。
在評估用於預測模型的資料時,最重要的因素之一是收集這些資料時是否考慮最終終點,如果沒有考慮到,那麼就可能會出問題。例如,許多研發小組建立了預測分子是否有毒的模型,因為可靠的毒理學模型可以減少藥物發現的時間和成本以及減少動物測試的需求。但是,體內毒理學資料有限,因此許多毒理學模型都是基於替代體外結果建立的,在大多數情況下,這些體外結果與最終體內毒理學反應之間的關係尚未明確建立。除此之外,通常在藥物研發中使用的動物模型與最終將在患者中看到的結果之間的關係也是有限的。
在許多情況下,基於先前設計的高通量實驗的結果來構建的預測模型會為我們提供優勢。但另一方面,由於在高通量分析的開發中做出的設計決策存在折衷,因此依賴現有的大規模資料可能會帶來問題——為提高分析通量而進行的調整可能會減少其準確性。例如,全基因組脫靶篩選的靈敏度比預定的脫靶區域的分析低得多。為了使資料有用,必須清楚地理解用於捕獲資料的實驗環境及其與最終結果的相關性。
AI可以用於解決一些資料集間以及其內部不同程度的不確定性,進而生成更高質量的資料集,但需要適當的註釋,以便在出現問題時可以找到元資料。雖然存在一定程度的自動註釋(例如,生成和分析資料的機器通常會新增諸如時間和日期之類的元資料),但AI能夠透過推斷上下文確定資料起點並從自動檢測可能的錯誤註釋來減輕人工註釋的負擔。除此之外, 用於語言翻譯的AI技術能夠在快速發展的術語中提供術語與術語之間的對映,並且基於AI的潛在變數機率模型已經能夠從臨床環境的多源資料集中提取相應含義。
使用實驗資料建立預測模型時,不確定性的另一個來源是資料的意外誤報資料,可能是簡單的拼寫錯誤或是數值記錄錯誤,但一個或兩個錯誤報告的資料點甚至可能會扭曲預測模型的結果。因此,資料管理和資料報告中潛在錯誤的識別是AI與藥物研發相關的另一個可能的領域。當然,並非所有異常值都是錯誤,他們可能會提供一種新見解的替代性行動機制。我們搜尋異常值或潛在錯誤的方式可能取決於構建模型的規模。
藥物發現本質上是一個最佳化問題,從眾多化合物中確定一種可行的用於生產。因此,藥物研發資料集通常包含數十種測定的資料,但是由於時間和金錢的限制,分析過程通常缺少一部分的值。因為只有在更高通量的體外或細胞分析中表現良好的化合物才能在更昂貴的體內實驗中進行測試,所以資料也不是完全隨機丟失的。當從科學文獻中獲取資料時,這種不平衡可能會變得尤為嚴重,因為這些文獻對負面結果的報道很少。
迄今為止,在AI方面最成功的領域是成像和自然語言處理(NLP)。這些資料與通常在藥物研發中發現的資料大不相同,因為相比與準確標記“影象中有停車標誌”來說,關於化合物是“對目標具有活性”還是“有毒”的問題要複雜得多,並且要貼上更具細微差別的標籤。給定的藥物研發專案為資料提供了背景,使專案成員能夠從資料分析中得出結論。但是如果將此類資料彙總到多個專案或實驗室中,則通常會丟失相關背景關係。與資料的可用性有關的另一個挑戰是,在許多情況下實驗無法生成可以簡單轉換為單個數值的資料。
在過去的二十年中,我們看到了許多包含數以百萬計的生物學分析結果的公共資料庫的出現,例如ChEMBL和PubChem,它們可以為機器學習模型提供輸入資料,從而預測藥物的各種生物學活性或理化性質。儘管這些資料庫很有用,但這些資料僅是所測資料的一小部分,因為許多較大的資料集是製藥公司或生產商專有,並且不能公開免費獲得的。大多數公司將其資料視為競爭優勢並密切加以保護。
產生新的假設儘管有了HTS技術的進步,但在尋找新的治療藥物時我們仍只是抽取了很小一部分的類似藥物的化學樣本。2015年,可採用的化學空間包含約1.25億種化合物,並且仍在增長。類似藥物的化學空間的大小使得我們不可能進行詳盡的列舉,因此藥物設計從本質上可以歸結為“下一步要做什麼”這個核心問題。藥物化學家通常從他們的經驗中、從合成準則中、從人類的創造力和寬泛定義的 “化學直覺”中汲取靈感。鑑於人類疾病的複雜性,在藥物設計中採用更徹底的假設生成方法可能是有益的。
化學設計可以被認為是模式匹配,實際上,自1990年代以來,基於計算機的從頭設計方法就已經被用作支援藥物設計的思想生成器。然而,今天,生成型AI透過提供決策的統計框架,為從頭設計藥物提供了新的方法。與早期的分子設計機制採用一組顯式的化學轉化和組裝規則相比,這些生成模型用隱含的方式顯示化學知識。換句話說,不再是書本中的化學語言,而是從訓練資料中學到的一種新規則。
藥物設計將面臨越來越複雜的資料和目標假設。藥物研發過程的一個關鍵性限制因素是缺乏有關人類生物學的基本知識,隨著研究過程中整個生命週期的不斷髮展,生物學分析往往會隨著知識的發展而迅速變化。因此,隨著藥物研發知識的發展,人工智慧需要更靈活地提供答案。另一方面,“機械”模型能夠透過捕獲不同級別(例如分子和細胞)的行為並提供有關這些行為如何演化和相互作用的解釋來應對這些挑戰。因此,利用提供新假設的此類模型和提供進一步資料以測試這些假設並改進模型的機器學習模型,形成了一個虛擬迴圈,該迴圈建立了完整的學習系統。
多目標最佳化NCE的研發需要在設計過程中平衡多個標準,包括目標效能、選擇性、清除率和滲透性。但是,針對某一屬性進行最佳化可能會損害其他屬性, 這種潛在衝突目標的問題可以在多目標最佳化 (MOO)的計算框架中提出並解決。
在計算機上MOO的設定中,需要為每個所需屬性計算一組預測模型,然後應用到一個現有的MOO演算法中嘗試解決潛在最佳化問題,即找到一個或一組平衡所需屬性的分子。由於這些屬性經常發生衝突,因此目標是生成一組可能的解決方案,每個解決方案都以不同的方式進行權衡。可以認為這套解決方案是在找出最優性邊界,沿著最優性邊界移動會產生一組最優解,每個最優解都有其自身權衡效能的方式。
找到這樣一個邊界目標的實質是對缺失資訊進行最佳化。如果我們確切地知道我們將如何權衡各個藥物設計標準,則可以改用更常規的計算最佳化方法來找到一種對精確已知的權衡函式進行最佳化的分子。但是,藥物研發和其他許多領域一樣,開發過程是迭代出來的,而不是分析出來的,其根本上的“人在迴路(human-in-the-loop)”在不久的將來也不太可能會消失。因此,MOO的目標是針對特定的分子設計生成一組不同的最佳解決方案,再將這些解決方案移交給人類專家進行決策。
神經網路是當前流行的一種預測模型,在視覺和音訊方面,人們可以輕鬆獲取大量標記資料,這些資料對於使用當前的深度神經網路取得成功至關重要,而生物學和化學領域的資料通常尚不足以使用這些神經網路。但是,機器學習領域正在積極尋求如何用更少的資料來做得更好,即“小樣本”學習。另一個潛在的原因是,近年來深度神經網路的發展已針對音訊和視覺領域的資料特徵進行了調整,但隨後直接應用於其他領域卻沒有考慮其適應性。與分析視覺和音訊資料相比,在化學和生物學中應用並延伸類似的結構還處於初期。基於圖神經網路的有監督的和無監督的學習都正在成為解決化學問題的可行方法,但仍有許多工作要做,包括如何使這些網路可計算擴充套件並適用於該領域。
假設人們可以使用合理的預測模型來構建MOO問題,那麼仍然存在如何嘗試解決MOO問題的問題。過去,MOO的演算法主要由“遺傳演算法”控制,該演算法使用類比來進行變異和交叉多樣化操作以及使用適應性概念來進行最佳化,這些方法已被通常屬於分佈演算法估計(EDA)類別的方法所替代,例如協方差矩陣適應進化策略,並與機器學習方法協同作用。此外,這些方法又與機器學習(即強化學習)有關。
對於連續資料,人們可能想到的最簡單的生成模型可能是具有均值和方差的正態分佈。當人們改變這些引數時,正常的樣本自然就會發生變化。實際上,EDA的工作方式是擁有一個足夠“豐富”的生成模型(即可以在設計中生成大量物件的模型,例如分子模型),然後使用特定的統計形式來調整引數,以便從中只對所需的分子進行取樣。因此,MOO的組成要素不僅是所使用的預測模型和MOO演算法,而且還是生成模型的類別。
一個相關的注意事項是如何以最適合於當前機器學習任務(例如預測模型和生成模型)的全部功能的方式表示分子和蛋白質。在自然語言處理領域,已經證明將原本由離散符號組成的句子轉換為實值向量可為下游任務帶來好處。在1990年代,分子設計方面也進行了類似的論證和努力,最近在深度學習的背景下又重新發現了它們。人工智慧和機器學習可能有價值的是能夠更好地編碼人類做出的決策,從而可以將這些決策編入自動化系統中。
減少週期時間識別和最佳化潛在的NCE所需的時間和投資是巨大的,並且藥物研發過程的所有階段都有很高的失敗風險。為了解決這個問題,製藥行業一直在投資化合物分析功能,但也帶來了許多挑戰,資料的增長遠遠超過了人腦的資訊處理能力。為了跟上藥物研發的複雜性和規模,科學家經常採用簡單的試探法和效率指標。儘管這些方法有優點也有爭議,但它們並未導致生成NCE所需的學習週期數或總體時間顯著減少。
在藥物研發中,將先導分子的特徵改善為候選藥物所需特徵的這一主要過程稱為設計-製造-測試-分析(DMTA)週期。這種基於假設的經典方法首先使用可用資料制定假設並設計分子(或從庫中選擇現有分子);隨後合成或提取設計的化合物並在適當的測定法中進行測試,以研究假設是否正確並增進理解;然後,對這些知識進行分析並將其轉化為下一個週期中設計的假設繼續發展。
許多研究報告了提高DMTA迴圈有效性的方法,例如,更多地使用預測資料、改進的資料分析工具以及增強化合物合成的有效性等等。AI在某些方面可能為HTS提供替代方案。無需編譯和依賴大型化合物庫,而是可以在DMTA迴圈的每次迭代中合成少量測試所需的化合物,直到獲得所需的測定讀數。但是,儘管這種“主動學習”方法在命中和線索識別上具有吸引力,其自身也存在問題,例如,化學型別僅限於可自動微流體輔助合成和分析的反應。
即使有了這些改進,DMTA迭代的週期時間仍然很慢,通常可能需要4到8周以上才能完成。雖然“設計”和“分析”階段可以很快進行,並且可以最佳化“測試”階段,但“製造”階段通常很慢,需要數週時間才能完成新型複雜分子的合成。因此,縮短該階段可以大大減少DMTA迴圈的迭代時間。在這種情況下,實驗室自動化(例如使用批處理或自動分析和純化進行快速化合物合成)將發揮決定性作用。自動化反應的選擇應主要集中在藥物化學家經常使用的反應上,因此化學家可以執行更具挑戰性的合成步驟並構思新的化學反應。
由於各種設計假設以及在各種測定中合成分子並對其進行分析所需的不同時間,因此經常並行進行多個設計週期。分子設計中需要捕獲和分析的資料量不斷增加,使得藥物化學家和科學家難以始終全面地理解數千個數據點和趨勢,並發現所有資料可以提供的經驗教訓。在努力跟上現代藥物研發專案資料集的大小、複雜性和維度的過程中,科學家常常不得不求助於簡單的啟發法,例如經驗法則、效率指標、或匹配的分子對等等。人工智慧為提高DMTA迴圈的有效性提供了一系列機會,包括能夠更好地利用大資料進行決策,整合和分析所有可用的實驗資料和預測資料,以支撐設計團隊的分子設計和想法。透過提供改進的合成路線和最佳化的反應條件,AI模型可以使化學家遵循最有效的路線,從而最終縮短“製造”階段。
在適當的時機和環境下,透過預先處理和量身定製的資訊或建議,研究人員將大為受益。這將減少他們翻閱原始資料的需要,他們可以直接用化學直覺和廣泛的背景知識來專注於對所提供資訊的評估。AI在低資料情況下從頭開始在藥物設計中的適用性尚未得到證實。在這種情況下,已確立的遷移學習概念可以為生成分子設計提供“少樣本”的方法,並且開創性的例子已經證明了其實用性。但是,評估對命中和潛在客戶產生的影響需要在不同的低資料情況和專案中進一步驗證轉移學習方法。在不久的將來,有了跨多個引數的更準確的預測模型,整個DMTA迴圈將變成虛擬的。透過更多的綜合分析,假設的產生將變得更快,並且提出的分子將更好地應對MOO挑戰。最終,這可以幫助減少DMTA週期和臨床候選藥物交付時間所需的時間。
研究文化和思維方式除了技術問題之外,人工智慧在藥物研發中要想成功最大的挑戰可能還在於培養利益相關者的思維方式和“文化”,使他們願意應用這些計算模型並使用其結果。要做到這一點,首先要認識到各個利益相關者的不同經歷,然後發展通用的術語和範例,以在AI輔助藥物設計過程中為每個過程(以及它們之間的相互作用)建立明確的作用。在大學層面上促進這種發展的一種重要方法是教育和指導學生的批判性思維以及能夠向其他研究人員和更廣泛的受眾解釋自己的操作。
鼓勵採用AI方法的關鍵是確定AI可以擴大和支援化學家和藥物設計師的領域,而不是替代。AI的一個侷限性是擁有精心挑選的資料來構建適當的訓練集,但是註釋和整理資料的過程卻是許多化學家認為繁重的過程。如果實驗室的筆記本可以利用AI來捕獲、註釋和管理資料,那麼化學家就能夠將更多的時間集中在開發有效藥物所必需的創新和人類洞察力上。此外,如果可以利用AI工具從其他藥物化學程式中篩選過去幾年的資料並將資料接入當前程式,則藥物設計中的其他方向可能會有所突破。但為使這種迴圈有用,藥物研發人員必須接受AI輸出的價值,並結合自身經驗加以利用。
人工智慧系統還必須能夠與人類專家互動和合作,以執行復雜的部分定義的任務。此外,如果在建議或預測本身的基礎上提供了可理解的理由,那麼基於AI的系統的使用也會受益。我們應該將AI視為合作伙伴而不是競爭對手。
https://www.nature.com/articles/s41573-019-0050-3