回覆列表
  • 1 # 機器之心Pro

    數學在機器學習中非常重要,但我們通常只是藉助它理解具體演算法的理論與實際運算過程。近日加州大學聖巴巴拉分校的 Paul J. Atzberger 回顧了機器學習中的經驗風險與泛化誤差邊界,他認為在科學和工程領域中,我們需要從基本理論與數學出發高效使用現有方法,或開發新方法來整合特定領域與任務所需要的先驗知識。

    近期研究人員越來越多地關注將機器學習方法應用到科學、工程應用中。這主要是受自然語言處理(NLP)和影象分類(IC)[3] 領域近期發展的影響。但是,科學和工程問題有其獨特的特性和要求,對高效設計和部署機器學習方法帶來了新挑戰。這就對機器學習方法的數學基礎,以及其進一步的發展產生了強大需求,以此來提高所使用方法的嚴密性,並保證更可靠、可解釋的結果。正如近期當前最優結果和統計學習理論中「沒有免費的午餐」定理所述,結合某種形式的歸納偏置和領域知識是成功的必要因素 [3 , 6]。因此,即使是現有廣泛應用的方法,也對進一步的數學研究有強需求,以促進將科學知識和相關歸納偏置整合進學習框架和演算法中。本論文簡單討論了這些話題,以及此方向的一些思路 [1 , 4 , 5]。

    在構建機器學習方法的理論前,簡要介紹開發和部署機器學習方法的多種模態是非常重要的。監督學習感興趣的是在不完美條件下找出輸入資料 x 的標註與輸出資料之間的函式關係 f,即 y = f ( x) + ξ,不完美條件包括資料有限、噪聲 ξ 不等於 0、維度空間過大或其他不確定因素。其他模態包括旨在發現數據內在結構、找到簡潔表徵的無監督學習,使用部分標註資料的半監督學習,以及強化學習。本文聚焦監督學習,不過類似的挑戰對於其他模態也會存在。

    應該強調近期很多機器學習演算法的成功(如 NLP、IC),都取決於合理利用與資料訊號特質相關的先驗知識。例如,NLP 中的 Word2Vec 用於在預訓練步驟中獲取詞識別符號的詞嵌入表示,這種表示編碼了語義相似性 [3]。在 IC 中,卷積神經網路(CNN)的使用非常普遍,CNN 透過在不同位置共享卷積核權重而整合自然影象的先驗知識,從而獲得平移不變性這一重要的屬性 [3]。先驗知識的整合甚至包括對這些問題中資料訊號的內在層級和構造本質的感知,這促進了深層架構這一浪潮的興起,深層架構可以利用分散式表徵高效捕捉相關資訊。

    在科學和工程領域中,需要類似的思考才能獲取對該領域的洞察。同時我們需要對機器學習演算法進行調整和利用社群近期進展,以便高效使用這些演算法。為了準確起見,本文對監督學習進行了簡要描述。與傳統的逼近理論(approximation theory)相反,監督學習的目的不僅是根據已知資料逼近最優解 f,還要對抗不確定因素,使模型在未見過的資料上也能獲得很好的泛化效能。這可以透過最小化損失函式 L 來獲得,其中 L 的期望定義了真實風險 。L 有很多不同的度量方法,如最小二乘法中的 ℓ (x, y, f) = (f (x) − y)^2,或最大似然方法 ℓ (x, y, f) = − log(p (y|x, f))。但是,R (f) 在實踐中是無法計算的,因為模型從資料中獲得的關於分佈 D 的資訊有限,這促進我們在實踐中使用替代誤差(surrogate error),如經驗風險 。從統計學上來說,使用經驗風險也有很大的成本,因為當資料量不夠大時 R hat 可能不會均勻地收斂至真實風險 R(f)。但是,因為 f 來自離散假設空間 H,且 H 在任意選擇的複雜度 c(f) 下可能都是無限空間,若 c (f) 滿足 時,你可以在 m 個樣本上推出泛化誤差邊界:

    其中,機率 1 − δ 適用於隨機資料集 [2]。類似的邊界也可以從具備其他複雜度(如 VC 維或 Rademacher 複雜度)的連續假設空間中推匯出。這在數學層面上捕捉了當前很多對應 RHS 最佳化的訓練方法和學習演算法。常見的選擇是適用於有限空間的經驗風險最小化,使用 c(f) = log(|H|),其中 c 不再在正則化中發揮作用。

    我們可以瞭解到如何透過對假設空間 H 和 c(f) 的謹慎選擇來實現更好的泛化與更優的效能。對於科學和工程應用而言,這可能包括透過設計 c(f) 或限制空間 H 來整合先驗資訊。例如限制 H 僅保持符合物理對稱性的函式、滿足不可壓縮等限制、滿足守恆定律,或者限制 H 滿足更常見的線性或非線性 PDE 的類別 [1,4,5]。這可以更好地對齊優秀的 c(f) 和 R hat,並確保更小的真實風險 R(f)。儘管傳統上這是機器學習的重點,但這不是唯一策略。

    正如近期深度學習方法所展示的那樣,你可以使用複雜的假設空間,但不再依賴於隨機梯度下降等訓練方法,而是支援更低複雜度的模型以僅保留與預測 Y 相關的輸入訊號 X。類似的機會也存在於科學和工程應用中,這些應用可獲得關於輸入訊號相關部分的大量先驗知識。例如,作為限制假設空間的替代方法,訓練過程中你可以在輸入資料上執行隨機旋轉,以確保選擇的模型可以在對稱情況下保持預測結果不變。還有很多利用對輸入資料和最終目標的洞察來結合這些方法的可能性。

    我們看到即使在本文提到的泛化邊界型別方面也可以獲取大量新觀點。針對改進邊界和訓練方法做進一步的數學研究,可能對高效使用現有方法或開發新方法來整合先驗知識方面大有裨益。我們希望本文可以作為在一般理論和當前訓練演算法中進行數學研究的開端,開發出更多框架和方法來更好地適應科學和工程應用。

    相關論文:Importance of the Mathematical Foundations of Machine Learning Methods for Scientific and Engineering Applications

  • 中秋節和大豐收的關聯?
  • 現在仿古瓷器還有用礦物質顏料的嗎?