紅外和可見影象融合是影象處理領域中的熱門話題,旨在獲得融合了源影象優勢的融合影象。本文提出了一種新穎的基於自編碼器的融合網路模型。核心思想是,編碼器將影象分別分解為具有低頻和高頻資訊的背景和細節特徵圖,並且解碼器恢復原始影象。為此,損失函式透過使源影象的背景/細節特徵圖相似/不相似完成特徵資訊的分離。在測試階段,透過融合模組分別合併背景特徵圖和細節特徵圖,並透過解碼器恢復融合後的影象。定性和定量結果表明,我們的方法可以生成包含顯著目標資訊和豐富細節紋理資訊的融合影象,在超越現有方法的同時具有很強的可復現性。
趙子祥:西安交通大學數學與統計學院一年級博士,研究方向為底層視覺,影象增強,資訊融合,於2018年本科畢業後碩博連讀,師從張講社教授。主要工作發表在 IJCAI, Signal Processing上。
一、影象融合背景
影象融合主要指現實生活中使用不同成像裝置對同一場景下的同一物體的不同成像影象進行資訊融合的過程。比較有代表性的影象融合有以下4個任務:
(1)多焦點或者多曝光的影象融合;
(2)紅外與可見光的影象融合(本文的主要工作);
(3)醫學上 MRI和CT的影象融合;
(4)常用於遙感的全色銳化和多光譜的影象融合。
本文的主要工作集中於紅外與可見光的影象融合。對於紅外光,其具有較強的穿透力,不受光照的限制,不受天氣環境的限制等優點。對於可見光,其具有極強的紋理和細節資訊,較高的空間解析度。但是其對於較差的光照環境,例如雨天、霧天或弱光情況下無法完成清晰成像和表徵。因此理想的情況是同時具有紅外光的可穿透性、目標的輻射資訊和可見光的紋理資訊和細節資訊梯度等的優點,生成一張融合影象實現對目標的準確清晰的認知。
目前存在的影象融合方法主要可以分為兩大類:
第一部分是傳統方法,可以分出以下幾類:多尺度分解方法,稀疏表徵方法,基於顯著度的影象融合和貝葉斯方法的融合等。第二類方法是深度學習的方法,主要分成以下三類:預訓練模型類,生成對抗模型類和自編碼類。
本文的工作借鑑了深度學習中第一類和第三類的優點,透過auto-encoder結構提取影象不同尺度的資訊,即base feature和 detail feature。提取base feature和 detail feature的過程完全由深度學習的方法進行分解,而不是透過一些傳統方法。
二、模型設計
以下是本文的具體工作。在Training中,encoder部分主要用於分離背景資訊和細節資訊,具體訓練過程如上圖所示,I代表的是輸入的紅外訓練樣本,V代表的是可見光訓練樣本。經過上述的網路框架之後,輸入的影象I進入 decoder,完成特徵分解之後,輸出紅外base資訊BI和 detail資訊DI。而影象V分別得到相應的 BV和DV。之後將BI和DI透過融合,再透過decoder獲得重構影象,並且希望獲得的重構於源圖足夠接近。
本文的total loss由兩部分組成,第一部分是Image decomposition,第二部分是Image Reconstruction。在Image decomposition中透過梯度下降使得BV和BI更為接近,使得DV和DI差距變大,實現了特異性的特徵分離。在Image Reconstruction中,透過I和I’,V和V’,以及▽V和▽V’的全變差懲罰,使其可以重構原影象。
經過訓練,模型獲得了訓練好的encoder和decoder,然後進入測試階段。在測試過程中,新增一個fusion layer,即融合層,實現BI和BV的融合,DI和DV的融合,然後把其進行拼接,輸入decoder實現影象重構。
以一張紅外影象作為例子輸入,其是大小為620×450×1。影象在base層和detail層均被分解成為64維的高維特徵。可見光影象同樣被分解為64維的高維特徵。因此BI和BV變成了620×450×64大小,DI和DV也變成了620×450×64大小。之後透過訓練好的decoder實現對feature map的重構過程,即最終輸出的融合影象過程。
在測試過程中新增的fusion layer的公式具體如上。對於融合策略的選擇有以下三種策略:直接相加、給定權重相加和L1-norm(把feature map的L1範數看作其activity measurement,然後透過計算不同feature map的L1-norm來給定不同融合權重)。
三、實驗驗證及對比
上圖是feature map分解視覺化。可以看到的是對於輸入的影象I和影象V,其BI和BV比較相似,都代表了各自的背景影象,而DI和DV的差異較大,分別代表了各自的特有資訊,紋理資訊或者高頻變化的資訊。因此可以認為本文的方法具有一定的可解釋性。
之後使用了紅外和可見光影象融合資料集上進行了測試,使用了TNO資料集,FLIR資料集和NIR資料集。結果對比可以看到,不管是在對於前景目標的突出度和高量資訊的維持上,還是對於背景紋理資訊的儲存上,本文的方法在眾多的測試方法中有著優異的表現。
然後透過對資料的定量對比,因為本文的任務屬於無監督任務,所以可以使用以下6個指標完成對於融合影象的比較:EN、MI、SD、SF、VIF和AG。
可以看出有與其他的方法相比,本文的方法在這6個指標上均有著較好的表現。證明該方法不論是對於原影象資訊的保留,還是對高亮資訊的表徵和低頻資訊的儲存都有著較好的發揮。
最後的實驗是為了驗證模型的可復現性,平行訓練了模型25次,將6個指標和其他的方法進行對比。紅色的虛線代表的是對比方法中最好的結果,藍色的曲線代表是第二好的結果。本文的方法基本可以認為優於其他的對比方法,證明具有較強的復現性。
四、總結
總之,本文的工作將特徵融合任務拆分成為特徵分解任務,然後對於不同的特徵分解做分步融合。本模型有效的利用了先驗資訊,即base資訊代表著大尺度的背景資訊, detail資訊是互異性較明顯的資訊。先驗資訊的應用對於融合任務有著一個較好的改變提升。
論文連結:
https://www.ijcai.org/Proceeding/2020/135