神經元或卷積核之間的強相關性會大幅削弱神經網路的泛化能力。本文提出使歸一化後的權重向量在單位超球面上儘可能分佈均勻,從而減弱其相關性。而著名的Tammes Problem是均勻分佈的評判標準之一。
本文從分析Tammes Problem出發,提出一種針對任意維度d和任意點數n的Tammes Problem的數值求解方法。進而將該方法應用到神經網路中,提出了一種新穎的神經網路正則化方法,減弱神經元或卷積核之間的相關性。
由於該方法使同層中的權重向量之間的最小夾角最大化(Maximizing the Minimal Angle),因此簡稱為MMA。MMA正則化形式簡單、計算複雜度低、效果明顯,因此,可以作為神經網路模型的基本正則化策略。本文透過大量的實驗,證實了MMA正則化的有效性和廣泛適用性。
王振楠,2020年博士畢業於深圳大學。博士期間研究課題為深度神經網路的角度正則化及其視覺應用,聚焦於深度學習的基礎性研究,如正則化、歸一化等,先後在ICCV和NeurIPS兩個計算機領域頂級會議上發表論文。
一、背景
本次分享內容主要是一種新穎的正則化方法,最小夾角最大化(Maximizing the Minimal Angle),因此簡稱為MMA。這個正則化的目的是使神經網路中的權重去相關性。
在CIFAR100中訓練好的VGG19-BN,經過探究可以發現在很多層中,其權重向量相關性比較高,甚至會達到重合的程度,這裡可視化了第一層的權重向量。可以看到左圖中具有很多紅色的點,其代表餘弦為1,即夾角為0,表明其基本重合。這種現象會造成泛化性的降低。透過右邊的示意圖進一步的解釋,如果權重向量相關性比較高,即W2、W1、W12基本上重合,那麼和資料向量X內積之後數值接近。進一步的,在這種情況下這一層的計算得到的向量會有很多值非常接近,即表達能力變弱,對於整體模型而言就是泛化能力降低。
既然這個問題已經被研究瞭如此之久,那麼如何解決也是有過很多嘗試的,現有解決方案基本上可以分為這三類,第一類是正交正則化,第二類是使用複雜訓練方式,第三類是最小化勢能函式。
對於正交正則化,提出時間比較早,主要用於度量學習領域。正交正則化的目的是促使任意兩個權重向量都達到正交。這個目的在某些情況下不一定成立,並且有論文分析發現這種正則化的效果使權重向量之間傾向於聚攏,效果不好。
對於使用複雜訓練方式,這個方法對於一個簡單的分類,例如單個模型,訓練模式雖然複雜,但是透過大量的程式碼還是可以實現,但是比如說對於更為複雜的模型,或本身就有很多種模型組合在一起的情況,實現方式困難。所以,這類方法也沒有得到推廣。
對於最小化勢能函式,其實是來源於Thomson Problem。Thomson Problem是任意n個點在任意d維的超球面上均勻分佈的判定標準之一,其認為當勢能函式最小化的時候,這些點達到均勻分佈的狀態。這個方案有很大的缺陷,第一個是計算複雜度特別高,需要計算大量歐式距離,第二個缺點是它裡面有很多極小值點和駐點,最佳化困難。
二、解決問題
在本次分享中,出發點是使單位超球面上的權重向量均勻分佈,使用了均勻分佈的另外一種評價標準,稱為Tammes Problem。Tammes Problem是荷蘭的植物學家Tammes,在觀察花粉的分佈時提出的問題。經過數學領域的演化之後有一個嚴格的定義,在一個d維的超球面上,找到n個點的分佈,使這n個點的最小歐氏距離最大化,那麼這n個點就是均勻分佈的。可以使用上圖最右側的數學表示式來表達最小歐式距離最大化的定義。
既然Tammes Problem在本文中是一個比較重要的工具,接下來就對它做一個比較詳細的介紹。首先嚐試透過解析的方法去求解,因為餘弦和歐式距離成反比關係,所以前面提到的最小歐式距離最大化等價於最大餘弦距離的最小化,透過n個向量和的模長的展開式進行推導,可以得到答案-1/(n-1)。
但是這樣的結果需要滿足兩個條件:
第一個不等號變等號的條件:任意兩個權重向量之間的夾角都是相等的,此時任意兩個權重向量之間的餘弦也是相等的,那麼最大餘弦距離也就等於平均餘弦距離。
第二個不等號變等號的條件:前面項為0,也就是n個單位向量和為零向量。可以寫成如下的矩陣形式,權重向量互相之間的餘弦是-1/(n-1)。
這個矩陣有兩個特徵值,第一個是n/n-1,第二個是0,是一個標準的半正定矩陣。所以可以透過特徵值分解求解,即得到權重矩陣W的解。但是需要注意的是,它的秩是n-1,所以要滿足權重維度d,至少大於等於n-1才能得到這樣一個解析解。當維度小於n-1時,只有少數n和d的組合,在數學領域有解,而大部分組合目前都沒有解析解。
從上面的推論來看,對於任意維度d和點數n的組合而言是很難得出解析解的,但是可以採用最佳化的方式獲得數值解。歐式距離的計算複雜,使得最佳化速度慢,但是最小歐式距離的最大化等價於最大餘弦距離的最小化,也等價於最小夾角的最大化,所以可以將餘弦作為最佳化目標,或者將夾角作為最佳化目標。
這裡可能會有一個疑問:為什麼當最小夾角最大化的時候,點或權重向量可以達到均勻分佈的狀態。這裡透過一個簡單示意圖做出說明,在一個二維平面裡面分佈有四個權重向量,對它的夾角進行最佳化涉及到兩個權重向量,即夾角的兩個向量,當這兩個向量分開直到兩個夾角都相等,就會涉及到三個權重向量,再進一步的分開使得三個角都相等,就會涉及到4個權重向量,繼續最佳化就會出現四個夾角相等的情況。
經過以上步驟,權重向量在二維平面就達到了均勻分佈,同樣的可以應用於高維空間,只不過不好去視覺化表現出來。而這種方法稱為最大化最小夾角,Maximizing the Minimal Angle,即MMA數值解法。
在前面的方法中提到過一種最小勢能函式,其中有兩個常用的,一個是RF,一個是對數。那麼從梯度的角度對這兩種和MMA和餘弦方法做一個對比,對比結果如上圖所示。
圖中橫座標表示夾角,縱座標表示模長的變化。藍色線和綠色線分別表示對數的勢能函式和RF勢能函式的梯度變化。從圖中可以看出當夾角趨向於0的時候,兩個函式的梯度趨向於無窮大,而隨著夾角的變大,梯度又急劇下降,所以它們的梯度是很不穩定的,這對於最佳化而言並不合適。所以不管是從梯度方面,還是從函式中涉及大量的歐式距離計算,都會造成高空間複雜度和高時間複雜度。
紅色的線代表餘弦對於權重向量的梯度模長,當夾角比較小的時候,它比較小,當夾角大一些會有梯度,但是在點數較多且夾角比較小的情況下最佳化困難。
至於黑色的線,就是MMA方法,可以看到梯度是非常穩定。對比之下MMA的梯度是最穩定的,不管夾角是多少。所以從梯度來說,使用夾角作為最佳化目標的MMA方法是比較有優勢的。
對於MMA在神經網路中,可以把全連線層看作很多權重向量;對於卷積層,把filters拉成權重向量;所以,可以把MMA loss直接用到神經網路當中每一層,因此提出一種正則化方法,MMA Regularization。一個向量的兩個基本屬性,一個是模長,一個是方向(其相對方向,就是夾角),因此MMA可以和weight decay,也就是L2正則化實現互補。因為Weight decay沿著模長的方向去改變權重向量的模長,哪個權重向量的模長大,它的梯度就大,對它的懲罰就大。而MMA恰好改變它的方向,所以去改變權重向量兩個基本屬性。另外MMA既可以用到隱層,也可以用到分類層,隱層是權重向量或filter去相關性,分類層除了去相關性,還因為分類層每一個權重向量實際上是一個類別中心,所以它可以最大化類間距離,或者最大化類別區分度。
三、結論驗證
接下來是從多個角度進行的實驗,前面提到過對於任意維度d和點數n實現均勻分佈很少有理論解析解。上圖是對Tammes Problem的一個實驗,第一列是維度,第二列是點數,第三列是解析解最佳值,第四列是MMA正則化方法,可以看到MMA得到的解和最佳解是非常接近的。第五列是餘弦方法,當能夠最佳化時,與最佳值比較接近,但是效果不夠穩定。第六列和第七列屬於最小勢能函式,其與最佳值有著較大的差異。
接下來是對超引數的實驗,這裡分為兩類,分別是有跳層連線的和無跳層連線的。從結構上來說帶有跳層連線的網路模型有一個優勢就是它的權重向量之間的相關性本身就比較弱,但是使用MMA 正則化可以進一步使權重向量去相關性。這裡使用VGG19-BN來代表沒有跳層連線的模型,是左側的圖;ResNet20代表有跳層連線的模型,是右側的圖。分別做超引數實驗。對於VGG19-BN,MMA正則化對超引數是不敏感的,從0.03~0.2都是可以work的。對有跳層連線的,因為本身相關性就不大,所以它對於超引數相對要敏感一些。
此外資料增強也屬於正則化的一種方法,這裡採用了比較強大的Autoaugment的方式進行實驗。該方法建立一個數據增強策略的搜尋空間,利用搜索演算法選取適合特定資料集的資料增強策略。此外,從一個數據集中學到的策略能夠很好地遷移到其它相似的資料集上。因為MMA和它的出發點是不同的,MMA可以繼續在它的基礎上提升效果。
將前面提到的正交正則化,兩個勢能函式的正則化,本文提出的MMA正則化做對比。首先從準確度來說,MMA正則的效果最好,提升量明顯。另外從時間複雜度和空間複雜度來說,MMA和正交正則額外消耗的時間和空間很少,但是勢能函式的方法額外消耗了幾倍的時間和空間。另外還發現一個規律,就是神經網路層當中,權重向量之間的相關性越小,也就是最小夾角越大,那麼模型的泛化效能越高,上表中最後四列體現出了這一規律。
為了去驗證是否會有最小夾角越大,模型泛化能力越高的規律,這裡面選了其他的一些層。透過整個訓練過程當中的視覺化來看,可以看到使用MMA正則化的方法每一層的權重向量之間的最小夾角都是最大的,也就說它的每一層的權重向量之間的相關性都是最弱的。
接下來就是在CIFAR100和TinyImageNet上使用了多個常用的經典網路模型,都是有效果的,並且對於VGG19的提升最明顯。另外在人臉識別的ArcFace模型上進行了實驗,因為人臉識別屬於度量學習,ArcFace主要在Softmax交叉熵損失函式中增加了餘量懲罰M。對人臉的最後一層新增MMA正則化,又出現了明顯的提升。
從分類任務的訓練曲線可以看到,對收斂速度和穩定性都是沒有影響的。也可以看到這個精度有一個持續的提升。
四、結論
●受到Tammes Problem的啟發,本文提出它的一個數值解法,稱之為MMA數值解法,它的解法原理是最小夾角新增負號作為損失函式,最後使得最小夾角最大化。
●這個數值解法應用到神經網路當中,稱之為MMA正則化。能夠對權重向量去相關性。
●這個方法具有明顯優勢,比現有方法最大的優勢是方法輕便,效果明顯,並且實現簡單。
相關資料
論文連結:
MMA Regularization: Decorrelating Weights of Neural Networks by Maximizing the Minimal Angles
https://papers.nips.cc/paper/2020/hash/dcd2f3f312b6705fb06f4f9f1b55b55c-Abstract.html