人工智慧要達到安全可信的要求是需要解決邊界性問題的。邊界問題的含義是智慧模型可以自主判斷自身對問題可解的範圍與不可解範圍。在明確了智慧模型的邊界的情況下,設計者才能真正地確定一個智慧模型可以安全可信使用的場景。
邊界性問題針對邊界性問題,學術界在3條技術路徑已經形成了共識,這包括了不確定性統計學習、複雜任務驅動的機器學習以及因果啟發的機器學習。
路徑1:不確定性統計學習邊界性的衡量是智慧模型對自身解決問題能力的自主判斷。理想情況下,智慧模型可解能力的邊界可表示為其對所給出預測和判斷的置信區間。邊界之所以難以刻畫,根本挑戰在於智慧模型的實際應用環境是開放和不確定的,同時,在給定的有限訓練資料下,智慧模型也存在認知上的不確定性。為了讓智慧模型具備“知道自己不知道”的能力,必須合理地刻畫不確定性。機率和統計是一種引入不確定性的工具和路徑,但是現今的學習模型(特別是深度神經網路)並沒有充分、合理地利用或考慮不確定性問題。
當前智慧模型的技術路線和真正的統計學習存 在一些重要的區別。統計分析強調對事物的不確定性有定量的刻畫和了解。但是當前智慧模型通常的 做法是設計一個損失函式,把不確定性透過積分等方式整合到損失函數里面。比如分類任務中追求分類的精確度,其精確度是損失了分類不確定性的結果。雖然這種做法在許多場景下很有效,但是從統計角度考察,這是以丟失分佈中的複雜資訊為代價的。這種做法把問題過分簡化了。
因此,以實現不確定性推斷為目標,需要把資料的內在分佈和不確定性完整地表達出來,而不是簡單地簡化成損失函式。因為簡化後的損失函式的適用場景存在一定侷限性。一種簡化方式下的損失 函式在某些場景下可能是適用的,而在其他某些場景下可能不適用。這是一個重要的問題。過去的統計研究都在研究不確定性,但從過去的統計研究的正規化來講,是研究小資料的場景,所涉及的模型相對簡單。而現如今,在與人工智慧相關的問題裡,資料結構十分複雜,規模也十分龐大,直接使用原來統計研究的方法,會面臨很大的挑戰。統計學界也對這個問題做了很多反思。如果可以真正把統計學習能夠處理不確定性問題的優勢與人工智慧處理大規模複雜資料的優勢相結合,對兩個學科都是非常大的貢獻。
一張“狗”的影象,一般被確定性描述成“狗”作為監督資訊,而其中只有一部分畫素是對應於“狗”。在如此完全確定性的資訊的監督條件下,很難產生一個包含不確定性的模型。因此,需要引入監督資訊的不確定性,並在推理過程中保護和維持這種不確定性,才有可能在本質上實現不確定性模型。應該在更大的邏輯框架下重新定位不確定性的統計學習框架。而只有不確定性模型才能提供在各種情況下的置信區間。
路徑2:複雜任務驅動的學習現如今智慧模型尚無法有效處理邊界問題的原因之一是現在的學習任務過於簡單。例如分類任務,僅僅學習一個分類介面就足以提高準確率,而對於資料的內部結構,包括資料的底層產生機制並沒有充分的理解。在一個沒有資訊的二分類任務中,兩種類別的比例不等,從統計的角度來看,應該學習出兩個類別的真實比例來做隨機分類的決策。而在現有機器學習的框架下,為了提高訓練資料中分類的準確率,學習演算法會對所有樣例選擇預測比例較高的類別。從最佳化的角度來看,這種做法做到了最優,但是模型沒有理解到資料內在的結構和分佈,因而難以對預測做出合理的邊界性判定。
在機器學習模式裡,很早之前就有關於分類錯 誤所產生的懲罰的啟示。在一個分類任務中,不同的分類錯誤所帶來的損失可能是不同的,因此可以最佳化的目標函式需要一些變化。損失函式需要憑藉人類的經驗提前設定,並且依賴於具體的應用場景。不同場景下的損失函式設計方法是不同的。而從統計的角度考慮,統計研究從根本上反對直接使用目標函式。統計研究希望模型能夠準確刻畫資料背後的分佈規律和不確定性,而不引入具體應用中的代價和懲罰的資訊。具體的代價和懲罰應該放在後端 的使用階段中考慮。
分類問題只關注分類結果正確與否,而把背後的分佈規律函式刻畫出來是一個描述問題。描述問題遠比分類問題要難得多。很多場景下只需要解決簡單的分類任務即可,但是也可能在一些更復雜任務的情況下,有必要學習資料的分佈。如今人工智慧已得到高度發展,想要進一步實現安全可信智慧,尋找到模型的邊界,理解資料的結構和分佈可能是一個必要之路。也許是時候去解決這個挑戰性問題了。
機器學習從總體上來講是從統計學出發產生的,但是它把統計裡面的很多內容過分簡化了。因此,機器學習雖然能夠解決一些問題,但是整個系統過於集中在問題的區域性。比如在分類問題中,系統只為了畫一個分類介面,而忽視了資料內在的結構。因為這些內在的結構對於解決這個任務可能並不必要。而最近一些更復雜的任務(例如對比學習、自監督學習)開始使用一些更復雜的目標來探索資料的產生機制和本質,從而牽引整個學習的過程。只有學習出資料的分佈結構和本質,才具備探討邊界問題的基礎。
此處的複雜任務有兩種理解方式。其一,該任務更具有通用意義,它和大多數高層任務不是很相關,但是這個任務的層面更本質。比如在自然語言處理領域,它學習了語言結構、語言模型;在視覺領域,它學習了影象的底層資訊結構。其二,該任務是多個任務的綜合,即希望學習得到的模型能夠支撐比較多的任務,這就要求模型對底層的分佈和結構要有充分的理解,才能以不變應萬變,實現多工通用。
路徑3:因果啟發的機器學習邊界問題可以歸約為不確定性問題,而不確定性問題的產生與噪聲有很大關係。假設資料由真實訊號和噪聲兩部分構成。當前基於關聯統計的學習模型以資料擬合為主要目標,而資料擬閤中包含了訊號和噪聲兩部分,最後導致模型不能有效區分訊號和 噪聲。在這種情況下,模型很難實現對確定性和不確定性的有效區分。如果能夠估計資料的真實產生機制(即true model),就可更好地解決邊界性問題。
因果學習一直在探索資料的真實產生機制,也就是嘗試從資料中識別真實訊號。如果在學習模型的基礎上引入因果,在一定程度上實現真實訊號和噪聲的識別和區分,在這個框架下或許可以更好地 解決不確定性問題,從而解決邊界問題。同時,在理想的情況下,明確因果機制可以讓現有的模型體系和模型框架高度簡化。現有的模型因為不具備對因果機制的瞭解,使用了非常龐大複雜的網路進行資料擬合。例如迴歸分析中,現有模型可能採用成千上萬的因子進行迴歸。但是在掌握了背後因果機制的情況下,可以建立一個使用很少變數的迴歸模型。當前的人工智慧模型“知其然,但不知其所以然”,即只求關聯但不求因果,相當多的複雜計算旨在處理資料中的噪聲。因果的引入,可以發現數據中所蘊含的本質結構和規律,或許可以賦予模型“以不變應萬變”的能力。但在大資料環境下挖掘背後的因果機制是相當有挑戰性的,是一個值得持續探索的方向。