首頁>科技>

機器學習會在天體物理時代有哪些應用呢?

撰文 | 李 楠(國家天文臺)

責編 | 韓越揚、呂浩然

我曾經寫過一篇文章《和Wall-E一起仰望星空》,裡面介紹了機器學習在大資料天體物理時代的應用,其高效性、自動化、準確性都給人們留下了深刻的印象。

看上去,人工智慧也許能夠幫助天文學家有效地解決大資料天體物理時代所面臨的難題。然而,人工智慧真的是萬能的麼?本文將從目前機器學習的侷限性探討一下機器學習在天體物理中的應用範圍。

01 剛需:大資料天體物理時代到來

隨著觀測技術的發展,天文資料呈指數型增長。例如,著名的斯隆巡天(The Sloan Digital Sky Survey)[1] 開始於2000年,觀測到了約300萬個天體,資料量大約是40TB。而目前正在執行的暗能量巡天(The Dark Energy Survey)[2]的資料量至少是斯隆巡天的100倍。未來歐洲的歐幾里得巡天(Euclid)[3]以及美國的大視場時空巡天(LSST)[4] 則會把資料量推到驚人的50PB和200PB(1PB=1024TB)。

僅僅是可觀測星系一種天體的樣本數目,就將達到數十億。因此,以往傳統程式設計加人工處理方式的效率已經不足以應付這樣龐大的資料量了。例如,把上百億的星系按照哈勃星系圖表(圖1)分類的工作量就多到讓人望而卻步,這還僅僅是天體物理學研究的基本操作。

也就是說,高效的自動化資料處理將成為剛需。幸好人工智慧技術在過去的十幾年裡有了突飛猛進的發展,比如圖樣識別技術已經可以快速地把網際網路上的圖片進行分類。天文學家們受此啟發,開始把人工智慧領域裡的相關技術應用到天文資料的自動化處理中。

圖1. 哈勃星系分類圖表 ,最左側分支(E)是橢圓星系,由左到右橢率逐漸增大。S0代表橢圓星系和漩渦星系的臨界點。Sa,b,c分支代表常規漩渦星系,由a到b星系的光度中漩臂佔的比重越來越大。SB分支代表具有棒結構的漩渦星系,由a到b的排序不只考慮了光度比還考慮的懸臂的開放程度。圖片來源:https://en.wikipedia.org/wiki/Hubble_sequence

02 應用:分類、迴歸與生成

著名科學家赫伯特·西蒙(Herbert Simon,1975年圖靈獎和1978年諾貝爾經濟學獎得主)給機器學習下過定義——“機器學習是計算機程式透過攝取資料來自行改進效能的過程”。機器學習和傳統程式根本的不同就是程式設計邏輯:機器學習的理念是歸納法,而傳統程式設計更傾向於演繹法。

例如,如果想用傳統程式設計方法對星系的形狀分類,我們需先測量星系的形狀引數,然後設定閾值,再根據形狀引數和閾值的關係對星系分類;而機器學習的邏輯則是:先建立一個普適的模型,不提供特定引數或閾值,只輸入星系影象和歸類標籤,這個模型就會根據輸入的資料自我調整,從而演化成一個可用於星系形狀分類的分類器。圖2展示了傳統程式和機器學習程式工作流程的差異。

眼下,天文學家主要應用機器學習解決分類、迴歸、生成等分體,成功案例包括星系形狀分類和指定天體辨識(圖3)、天體物理現象的快速自動化建模(圖5)以及模擬影象的生成(圖6)。綜合來看機器學習在解決天體物理學問題上具有以下優點:1)覆蓋範圍廣,普適性好;2)資料驅動,上限明顯高於傳統方法;3)開發難度越來越低,移植性好。這些優點使得機器學習的方法在天體物理尤其是大資料時代的天體物理中越來越流行,幾乎在各個天體物理學領域甚至各個科學領域都能看到其身影。

圖4. 應用機器學習解決“迴歸問題”的例項。左圖為宇宙中的投影物質分佈示意圖,右圖為機器學習的方法根據宇宙中的投影物質分佈預言的宇宙學引數[7]。這個應用的基本思想是透過機器學習的演算法建立起左圖和由圖中宇宙學引數的對應關係,這樣在將來有新的物質分佈的資料的時候,只要輸入訓練好的模型中,就可以快速地返回對應的宇宙學引數了。

圖5. 機器學習演算法生成的模擬星系影象與真實影象的對比[8]。左圖為機器學習生成的無噪音漩渦星系,中圖為新增噪音之後的模擬影象,右圖為哈勃望遠鏡所觀測到的影象。生成儘可能真實的數值模擬的影象有助於天文學家測試和校正資料處理軟體和科學建模軟體。

03 短板:門檻、資料與黑盒子

然而,機器學習並非無所不能。首先其超高的計算量和特別的硬體需求使其入門門檻要高於傳統方法。另外,模型設計非常複雜,要投入大量的人力、物力和時間來開發新演算法及模型,大部分人只能使用現有的模型。而且,機器學習是一個隨機的過程,結果的統計性是自洽的,但無法在個體結果上實現多次完美重現。

例如,應用機器學習實現分類操作時,小部分目標天體每次的分類結果都會不一樣;應用機器學習實現迴歸計算時,每次預言的引數也都不是可重複的固定值,儘管不確定性很小。因此,應用機器學習研究天體物理學問題時,有明確一對一關係的物理過程(如星系動力學模擬和引力透鏡光線追蹤模擬等)依然需要傳統方法來實現。

其次,機器學習是資料驅動的,所以缺少資料的科學問題要謹慎採用此方法,尤其是資料在引數空間的覆蓋範圍不夠完備的時候,機器學習將給出有偏差的結果。當然,可以使用數值模擬的方式來改進資料的完備性和多樣性,但這又導致機器學習給出的結果強烈依賴模擬資料的生成模型,因此應用機器學習解決此類問題的時候,需要儘可能詳盡地設計模擬過程從而建立合理的訓練樣本。

另一方面,在資料體量滿足條件的時候,缺少優質資料的科學問題也不太適合採用機器學習來解決,因為大量的劣質資料會導致機器學習模型對噪音(非真實優質的資料)做出響應,從而給出可信度很高的錯誤結果。解決此類問題時,對資料謹慎地預篩選和後篩選是必要的,以儘量避免“錯進錯出(Garbage in, Garbage out)”現象。

最後,也是最重要的:機器學習演算法的不可解釋性是被人詬病最多的短板,因此機器學習一直被比喻成黑盒,形象的地描述了機器學習演算法對相關性敏感,但極其欠缺因果性的解釋。

目前為止,機器學習,尤其是深度學習的唯一真正成功之處是在給定大量人類註釋資料的情況下,能夠使用連續的幾何變換將空間X對映到空間Y,然而至於為什要從X對映到Y還需要科學家自己把控。此外,從X對映到Y的具體細節也需要更深入的研究。

相關研究[9]已經嘗試用谷歌的Deep-Dream[10]工具包研究星系團質量重構過程中對特定資料點的敏感性(圖6),微軟的InterpretML[11]工具包則專注於神經網路模型中各部分的邏輯關係和資料流向(圖7),這兩個嘗試可以被看成“向黑盒子照入光”,幫助人們更好地理解其工作原理,當然結果仍很初步,離完全理解“黑盒子”還有很長的路要走。希望隨著對機器學習工作邏輯研究的深入,人類能最終開啟黑盒,讓機器學習幫助科學家更好地探索宇宙。

圖6. 應用深度學習演算法基於星系團的光度資訊重構星系團的總質量分佈的過程中,星系團光度場中資料點對重構結果貢獻的權重示意圖。左側為星系團的廣度分佈(恆星粒子分佈)[9],其中黑圈圈出星系團的中心星系的位置,紅圈圈出星系團的成員星系;右側為Deep-Dream[10]處理後的結果,黃色的區域代表對結果貢獻比較大的資料點 。

圖7. 機器學習模型解釋軟體InterpretML簡介[11]。

04 總結:有效、有選擇、有未來

大資料天體物理時代,機器學習能有效地幫助天文學家完成了海量資料的挖掘工作。但機器學習並不是萬能的鑰匙,不能盲目地應用機器學習去解決所有天文學問題,尤其是在問題範圍不明確、資料體量不足以及資料質量不高的情況下。

另外,不可解釋性是機器學習方法目前最大的短板,因此根據機器學習的結果下因果性結論的時候要尤為謹慎。已經有一些先驅性工作嘗試解釋機器學習結果與資料的因果關係以及機器學習模型內部的邏輯關係,希望隨著此類研究的深入,人類能最終開啟黑盒,讓機器學習也能從事推理和抽象相關的科研工作。

參考文獻:

[1] https://www.sdss.org/

[2] https://www.darkenergysurvey.org/

[3] https://www.euclid-ec.org/

[4] https://www.lsst.org/

[5] Dieleman, S. et al., Rotation-invariant Convolutional Neural Networks for Galaxy Morphology Prediction, 2015, MNRAS, Vol. 450, Issue 2, p.1141-1459

[6] Hocking, A. et al., An automatic taxonomy of Galaxy Morphology Using Unsupervised Machine Learning, 2018, MNRAS, Vol. 473, Issue 1, p.1108-1129

[7] Fluri, J. et al., Cosmological Constraints from Noisy Convergence Maps through Deep Learning, 2018, Physical Review D, Vol. 98, Issue 12, id.123518

[8] Ravanbakhsh, S. et al., Enabling Dark Energy Science with Deep Generative Models of Galaxy Images, 2017, AAAI-2017, Proceedings, id.14765

[9] Yan, Z. et al, Galaxy Cluster Mass Estimation with Deep Learning and Hydrodynamical Simulations, 2020, MNRAS, Vol. 499, Issue 3, pp.3445-3458

[10] https://github.com/google/deepdream

[11] https://github.com/interpretml/interpret

作者簡介

李楠

2013年在中國科學院大學年獲得天體物理學博士,現中國科學院國家天文臺副研究員,主要研究興趣為機器學習在天體物理中的應用、應用引力透鏡效應研究星系宇宙學問題。

9
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 加速國產化應用—基於飛騰晶片組,華北工控推出多款高品質計算機