首頁>科學>

我們都知道深度卷積神經網路是依靠大量的資料和具有大量特徵對映的層來完成學習和更新的,這個過程並不是非常高效,對於大型資料集來說,這意味著有大量冗餘的特徵檢測器。

針對這一問題,膠囊網路是一個有發展潛力的解決方案——它可以擴充套件當前的卷積網路,並可以令人工視覺感知到高效編碼所有特徵仿射變換的過程。

由於內在具有更好的概括能力,一個膠囊網路理論上可以使用相當少的引數數量,並獲得更好的結果。

可惜的是,注意到這一點的人並不多。

不過,近日,來自義大利的研究者提出了一種高效的自注意路由膠囊網路(Capsule Network with Self-Attention Routing, Efficient-CapsNet):

他們深入研究了膠囊網路的的效率,並在引數僅僅有16萬的情況下,將網路的效能推到了極致。

在實驗部分,研究者證明,他們提出的架構,在引數量降低為原始CAPSNET的2%的情況下,還可以在三個不同的資料集上實現最先進的結果。

此外,研究者用一個新穎的非迭代、高度並行的的路由演算法替代了動態路由,利用自我注意機制,這種新穎的演算法可以很容易地對小數量的膠囊進行處理。

最後,研究者還在其他膠囊上做了額外的實驗,結果證明了Efficient-CapsNet的有效性,也證明了膠囊網路可以有效嵌入更為泛化的視覺化表示這一特點。

該論文的貢獻主要在於:

深入研究了基於膠囊的網路的泛化能力,與以前的文獻研究相比,大大減少了可訓練引數的數量概念化和開發了基於膠囊的高效、高度可複製的深度學習神經網路,並能夠在三個不同的資料集上達到最先進的結果引入了一種新穎的非迭代、高度並行的路由演算法,即使膠囊數量減少了,該演算法也能利用自我注意機制來對其進行有效的路由

論文中的所有訓練和測試程式碼都是開源的,可以公開使用,論文地址如下:

https://arxiv.org/pdf/2101.12491.pdf

三層寶塔結構:兩層不同卷積處理+自注意力機制

Efficient-CapsNet的總體架構如下圖所示:

圖:Efficient-CapsNet的總體架構示意圖

主膠囊利用深度可分卷積,來建立它們所代表的特徵的向量表示。另一方面,卷積層的第一個堆疊將輸入張量對映到一個高維空間,從而促進了膠囊的建立。

該網路可以被分為三個不同的部分,其中前兩個主要實現了膠囊層和輸入空間之間的互動。每個膠囊利用下面的卷積層過濾器,將畫素強度轉換為它所代表的特徵的矢量表示。

因此,在一個活躍膠囊內的神經元活動,體現了它在訓練過程中學習到代表樣本的各種屬性。這些屬性可以包括許多不同型別的例項化引數,如姿態、紋理、變形,以及特徵本身的存在。

在這一部分的實現中,由膠囊表示的實體出現的機率用每個向量的長度來表示。這一點與下面的自我注意路由演算法是相容的。

網路的最後一部分在自我注意演算法下執行,將低階膠囊路由到了它們所代表的整體。

圖:網路的第一部分,可以被建模為將輸入影象對映到高維空間的單函式轉換。然後,透過深度可分離卷積得到主膠囊層,這大大減少了製作膠囊所需的引數數量。

圖4:自注意力層,這一層的膠囊對它們所屬的整體做出預測

操作簡單,引數量大幅降低,效果依然顯著

在實驗部分,可以看出,Efficient-CapsNet所包含的引數量非常少:

圖:計算成本和必要操作方面的比較。

Efficient-CapsNet除了擁有較少的可訓練引數,在效率方面也更高

下面是在數字重構上的表現:

圖:即使有不同的架構策略和訓練目標,所有的網路都能夠嵌入輸入數字的不同屬性,並只保留重要的細節

下面是在在MNIST分類任務上的測試錯誤率:

這是Efficient-CapsNet與近十年最先進方法的效果對比:

下面是在smallNORB分類任務上的測試錯誤率:

更多詳細資訊請參考連結:

https://arxiv.org/pdf/2101.12491.pdf

11
最新評論
  • mRNA疫苗可誘導對SARS-CoV-2及其多種擔憂的變體的持久免疫記憶
  • 為什麼不純的氫氣點燃時可能發生爆炸?