J. Long et al. (2015) 首先將全卷積網路(FCN)應用於影象分割的端到端訓練。FCN修改了VGG6等網路使其具有非固定大小的輸入生成具有相同大小的分割影象,同時透過卷積層替換所有完全連線的層。由於網路生成具有小尺寸和密集表示的多個特徵對映,因此需要進行上取樣以建立相同大小的特徵。基本上,它包含於一個步幅不小於1的卷積層。它通常稱為反捲積,因為它建立的輸出尺寸大於輸入。這樣的話,整個網路是基於畫素點的損失函式進行訓練的。此外,J. Long在網路中添加了跳過連線,以將高層級特徵對映表示與網路頂層更具體和密集的特徵表示相結合。FCN把CNN最後的全連線層換成卷積層,這也是其名字的由來。
Figure 2 FCN網路結構
ParseNet
W. Liu et al. (2015) 針對J. Long的FCN模型進行了兩步改進,第一步使用模型生成要素圖,這些要素圖被縮減為具有池化層的單個全域性特徵向量。使用L2歐幾里德正規化對該上下文向量進行歸一化,並且將其取出(輸出是輸入的擴充套件版本)以生成具有與初始值相同的大小的新特徵對映。第二步再使用L2 歐幾里德正規化對整個初始特徵對映進行歸一化。最後一步連線前兩個步驟生成的要素圖。規範化有助於縮放連線的要素圖值,從而獲得更好的效能。
Figure 3 ParseNet網路結構
Pyramid Scene Parsing Network (PSPNet)
H. Zhao et al. (2016) 開發了金字塔場景解析網路(PSPNet),以更好地學習場景的全域性內容表示。PSPNET使用具有擴張網路策略的特徵提取器從輸入影象中提取模式。特徵提供給金字塔池化模組以區分具有不同比例的模式。它們與四個不同的尺度合併,每個尺度對應於金字塔等級,並由1×1卷積層處理以減小它們的尺寸。這樣,每個金字塔等級分析具有不同位置的影象的子區域。金字塔等級的輸出被上取樣並連線到初始特徵圖以最終包含區域性和全域性的上下文資訊。然後,它們由卷積層處理以生成逐畫素的預測。
Figure 4 PSPNet網路結構
ICNET
H. Zhao et al. (2018)針對高畫質影象的實時語義分割,提出了一個基於PSPNet的影象級聯網路(ICNET),它解決了現實應用中的基於畫素標籤推斷需要大量計算的難題。ICNET可以在單塊GPU卡上實現實時推斷並在Cityscapes,CamVid等資料驗證有相對不錯的效果。
語義分割介紹
語義分割是計算機視覺中細粒度推理的基礎條件之一,模型必須瞭解其所處的環境以達到所需的精度,因此,語義分割透過畫素級精度為模型提供必備的條件。在這篇文章中,我們將講述以下內容:
什麼是語義分割?語義分割和例項分割有什麼不同?語義分割的實戰用例語義分割的發展史什麼是語義分割?
語義分割的定義是對影象進行畫素級別的分類和標註,比較容易和例項分割概念混淆,大體上的區別在於語義分割將所有同類物體進行相同的畫素分類。
語義分割和例項分割有什麼不同?
為了更清楚地解釋他們的區別,影象分割是用來檢測物件所屬的類別,而例項分割顧名思義是給每個例項單獨的唯一標籤。簡單來說:假如您要標註的圖片中有多隻綿羊,語義分割在檢測圖片中的物件時將多隻綿羊分配同樣的標籤,都屬於“綿羊”分類,而例項分割會給多隻綿羊不同的分類。這兩種方式都透過平滑地識別感興趣物件在不同應用場景中發揮作用。在標註影象分割過程中,您需要根據任務型別的不同選擇不同的標註方式。
語義分割vs例項分割
語義分割的實戰用例
語義分割可應用在以下常見場景中:
人臉識別手寫識別影象搜尋自動駕駛時尚行業虛擬試衣衛星和航拍影象測繪醫療成像和診斷總而言之,相對於其他影象標註方式來說,語義分割是解決更復雜的任務的方法,讓機器擁有更高水平的識別能力。繼續閱讀,我們將展開講述語義分割的經典案例以進一步理解它。
語義分割的發展史
Fully convolutional network(FCN)
J. Long et al. (2015) 首先將全卷積網路(FCN)應用於影象分割的端到端訓練。FCN修改了VGG6等網路使其具有非固定大小的輸入生成具有相同大小的分割影象,同時透過卷積層替換所有完全連線的層。由於網路生成具有小尺寸和密集表示的多個特徵對映,因此需要進行上取樣以建立相同大小的特徵。基本上,它包含於一個步幅不小於1的卷積層。它通常稱為反捲積,因為它建立的輸出尺寸大於輸入。這樣的話,整個網路是基於畫素點的損失函式進行訓練的。此外,J. Long在網路中添加了跳過連線,以將高層級特徵對映表示與網路頂層更具體和密集的特徵表示相結合。FCN把CNN最後的全連線層換成卷積層,這也是其名字的由來。
Figure 2 FCN網路結構
ParseNet
W. Liu et al. (2015) 針對J. Long的FCN模型進行了兩步改進,第一步使用模型生成要素圖,這些要素圖被縮減為具有池化層的單個全域性特徵向量。使用L2歐幾里德正規化對該上下文向量進行歸一化,並且將其取出(輸出是輸入的擴充套件版本)以生成具有與初始值相同的大小的新特徵對映。第二步再使用L2 歐幾里德正規化對整個初始特徵對映進行歸一化。最後一步連線前兩個步驟生成的要素圖。規範化有助於縮放連線的要素圖值,從而獲得更好的效能。
Figure 3 ParseNet網路結構
Pyramid Scene Parsing Network (PSPNet)
H. Zhao et al. (2016) 開發了金字塔場景解析網路(PSPNet),以更好地學習場景的全域性內容表示。PSPNET使用具有擴張網路策略的特徵提取器從輸入影象中提取模式。特徵提供給金字塔池化模組以區分具有不同比例的模式。它們與四個不同的尺度合併,每個尺度對應於金字塔等級,並由1×1卷積層處理以減小它們的尺寸。這樣,每個金字塔等級分析具有不同位置的影象的子區域。金字塔等級的輸出被上取樣並連線到初始特徵圖以最終包含區域性和全域性的上下文資訊。然後,它們由卷積層處理以生成逐畫素的預測。
Figure 4 PSPNet網路結構
ICNET
H. Zhao et al. (2018)針對高畫質影象的實時語義分割,提出了一個基於PSPNet的影象級聯網路(ICNET),它解決了現實應用中的基於畫素標籤推斷需要大量計算的難題。ICNET可以在單塊GPU卡上實現實時推斷並在Cityscapes,CamVid等資料驗證有相對不錯的效果。
當今基於深度學習的各種網路架構不斷提升影象語義分割的效能,但是都距離工業界的實際應用有一定距離,像在Cityscapes資料集取得不錯效果的ResNet和PSPNet針對1024*1024的影象至少需要1秒鐘做出推斷,遠遠不能滿足自動駕駛,線上影片處理,甚至移動計算等領域實時的要求,ICNET即是在這樣的背景下,在不過多降低預測效果的基礎上實現毫秒級相應以滿足實時處理的要求。在Cityscapes資料集上,ICNET的響應時間可以達到33ms,處理能力達到30.3fps,準確率達到70.6%的mIoU分數。
Figure 5 在Cityscapes資料集上的結果表
ICNET的主要貢獻在於開發了一種新穎獨特的影象級聯網路用於實時語義分割,它高效的利用了低解析度的語義資訊和高解析度影象的細節資訊;其中級聯特徵融合模組與級聯標籤引導模組能夠以較小的計算代價完成語義推斷,可以取得5倍的推斷加速和5倍的記憶體縮減。
ICNET需要級聯影象輸入(即低,中和高)解析度影象,採用級聯特徵融合單元(CFF)並基於級聯標籤指導進行訓練。具有全解析度的輸入影象透過1/2和1/4比例進行下采樣,形成特徵輸入到中解析度和高解析度的分支,逐級提高精度。
Figure 6 ICNET架構
我們使用低解析度輸入得到語義提取,如上圖頂部分支所示使用下采樣率為8的比例將1/4大小的影象輸入PSPNet,得到1/32解析度的特徵。獲得高質量的分割,中高解析度分支有助於恢復並重新處理粗糙的推斷;CFF的作用就是引入中解析度和高解析度影象的特徵,從而逐步提高精度,CFF的結構如下所示。
Figure 7 CFF結構
這樣只有低解析度的影象經過了最深的網路結構,而其他兩個分支經過的層數都逐漸減少,從而提高了網路的速度。
為了降低網路的複雜度,ICNET採用了修剪網路每層中的核心來實現模型壓縮。對於每個過濾器,首先計算核心L1正規化的求和,然後降序排列僅保留部分排名靠前的核心。