編輯/大路
雖然計算建模也被用來估計材料的特性。但實驗的成本與測量的精度之間通常會有一個取捨,這限制了可以用來嚴格測試的材料數量。近期,Chen等人在Nature Computational Science上撰文,報告了一種機器學習方法,該方法結合了來自多個測量和模擬來源的資料,所有這些資料都具有不同的近似水平,以學習和預測材料的特性。
他們的方法允許構建一個比以前更具普遍意義,也更準確的「材料屬性模型」,從而促進篩選有前途的「候選材料」。
現在,材料科學家通常用機器學習模型的預測來補充自己的 「化學直覺」,以決定下一步要進行哪些實驗。例如,人工智慧已被用於識別在高溫下充當超導體的候選化合物;利用鋰離子傳導電流的電解質材料;以及可承受大電場而不分解的電絕緣聚合物。此外人工智慧也被用來研究合成材料的方法——即建議使用哪些試劑、催化劑和實驗條件。
然而,對於大多數現實世界的應用,材料屬性的測量具有不同程度的保真度,這取決於可用的資源。例如,對晶體材料特性的最精確(高保真)測量是使用單晶進行的,而單晶的製備是很費力的。因此,近似(低保真)的測量通常使用易於合成的多晶樣品。同樣的,一系列越來越精確,但逐漸昂貴的計算建模方案被用來計算材料的特性。因此,高保真建模往往受到其成本的限制。
總的來說,測量和建模技術的這種變化導致了資料結構的異質性——低保真測量資料豐富,而高保真資料則很稀少。值得注意的是,每種型別的保真度都有其自身的優勢:低保真度資料覆蓋了多種化合物,而高保真度資料則更為準確。因此,僅使用低保真度或高保真度資料訓練的單一保真度模型會分別錯失「高準確度」或「通用性」(圖1)。
圖1 | 多保真資料可以改善使用機器學習開發的預測模型。
Chen等人現在提出了一種人工神經網路(一種受大腦啟發的計算機系統)的改編,他們稱之為多保真圖網路。這種網路可以使用從不同的建模和實驗技術中獲得的資料來學習材料的特性。作為原理證明,實驗人員訓練了他們的圖形網路學習帶隙——一種控制固體材料的幾種電學和光學特性的屬性,如它們的導電性和顏色。其中,他們使用了五個來源的帶隙資料:四個資料集是不同型別的量子力學計算結果,第五個來源是實驗資料。保真度最低的資料集包含了大約5萬個資料點,大約是其他資料集數量的100倍;這是材料科學中現有資料異質性的典型表現。
多保真圖網路
該論文作者的「圖網路」是以「材料圖」(材料結構的數學表示,由代表原子的節點和代表鍵的邊緣組成)作為輸入。然後,執行一系列數學(卷積)操作,以交換其節點和邊緣之間的資訊。這就產生了一個被稱為「潛伏表示」的輸出向量,該向量被傳遞給另一個人工神經網路,並由其進一步操作,以預測實驗人員感興趣的屬性(在這種情況下,就是帶隙)。首先使用一個或多個歷史資料集來同時訓練「材料圖」和第二個人工神經網路,使它們初步做出預測。
基於「圖網路」的機器學習技術是材料特性單保真學習的最佳方法之一,並且不需要特徵工程步驟(其中材料的組成和/或原子結構被轉換為機器可讀格式的數字字串),而這往往是其他機器學習演算法所必需的。
為了使他們的「圖網路」適應多保真度學習,除了那些用於表示圖節點和邊緣的變數外,該論文作者還引入了一個新的變數,以說明資料點的保真度水平。因此,該論文的「圖網路」在原子節點、鍵邊和新變數所代表的資料保真度級別之間交換資訊。這意味著他們的方法適用於任何數量的保真度級別。
預測誤差也比較清楚地表明瞭多保真度方法的好處。例如,與單保真度模型相比,具有4個保真度級別的模型將帶隙的預測誤差降低了22-45%。同樣,涉及兩級、三級或五級保真度的多保真度模型也比單保真度模型表現更好。
這種改善可以歸功於兩個關鍵因素。首先,大量的低保真度資料比單一的高保真度資料集代表了更多的化學多樣性的材料集合;「圖網路」採用這種多樣性的結果是一個更好,也更普遍的潛在表示。其次,低保真帶隙資料和高保真帶隙資料之間有很高的相關性——低保真資料集中的許多帶隙與高保真資料集中的等效資料點的值很接近。這第二個因素也是顯然的:在使用與低保真資料集相關性更強的高保真資料集時,實驗結果獲得了更高的預測精度。
Chen和同事的方法還克服了其他多保真方法的侷限性,那些方法要麼不容易擴充套件到大型資料集,要麼不能處理異質資料或兩個以上的保真度水平。因此,論文中的「多保真圖網路」是一個強大的新系統,用於捕捉多保真資料集之間的複雜關係。但需要注意的是,Chen等人並沒有探討如果對低保真度和高保真度的資料點進行不同的加權會發生什麼。當低保真點的數量非常大,以至於代表了全套多保真資料時,這種加權可能會變得必要。
這種新系統並不侷限於材料科學,也是可以推廣到任何可以使用「圖結構」來描述的問題,比如社交網路和知識圖(將知識表示為由關係連線的概念的數字框架)。此外,這種方法原則上也可以用來同時學習多個屬性(多工學習),而不是隻學習一個屬性,因為該屬性的資料可以在多個保真度級別上獲得。
然而,一些基本問題仍然存在。即使低保真度資料的質量極差,多保真度方法又是否能保證比單保真度模型表現更好呢?而當低保真和高保真資料點相關性很差時,又會發生什麼呢?這些都需要更多的研究來了解多保真學習對哪些場景最有利,去平衡預測精度和獲取資料的成本。當然,多保真方法的普及率肯定會增加,因為它們直接利用了材料和化學科學中潛在而廣泛的資料異質性。
https://www.nature.com/articles/d41586-020-03259-4
Rohit Batra