文章導讀
本文是一篇將注意力機制應用在點雲目標檢測中的文章《TANet: Robust 3D Object Detection from Point Clouds with Triple Attention》,透過三元注意力機制強化目標資訊,並用二級迴歸的方法提高定位精確度。
注1:文末附【點雲】交流群
注2:計算機視覺書籍彙總
目錄
前沿核心思想 框架結構實現細節要點分析思考展望
前沿
3D點雲目標檢測通常採用三種策略:1. 基於原始點雲的方法,設計網路提取特徵,然後用兩階段檢測網路估計結果;2. 基於體素的方法,將點雲轉換成規則的體素網格,然後採用3D卷積做目標檢測;3. 基於鳥瞰圖的方法,將3D點雲編碼成2D影象的方式,用影象目標檢測的思路做目標檢測。
但是在複雜場景下的3D點雲目標檢測效果仍然不佳:1. 難以檢測的物件(如行人)的檢測準確率不夠好;2. 新增額外的噪聲點後,現有方法的效能迅速下降;
主要產生的原因如下:1. 行人等小目標的體積小於車輛,鐳射雷達掃描到目標上的有效點較少。2. 行人所處的環境有大量可變背景物體(如樹、灌木叢、電線杆等),在前景有效點較少的情況下,背景的複雜很大程度影響目標檢測效果。
核心思想
針對以上的分析,本文設計了兩個新穎的模組來提高網路的魯棒性:1. Triple Attention。結合通道注意力、點注意力和體素注意力來增強目標的關鍵資訊,並抑制不穩定的點。其中通道注意力用於判斷每個體素中哪些通道更加重要;點注意力用於判斷一個體素中哪些點更加重要;體素注意力用於判斷在所有體素網格中哪些網格更加重要。2. Coarse-to-Fine Regression。採用兩階段迴歸的方法,將粗略迴歸的輸出bbox作為精確迴歸的anchor,模組在不過度消耗計算成本的情況下提升定位準確率。
框架結構
本文首先將點雲均勻分割成體素網格,然後用堆疊三元注意力模組分別處理每個體素,獲得更具判別性的表達。之後用最大池化方法聚集每個體素內的點,從而為每個體素提取緊湊的特徵表示。最後使用二次迴歸模組生成最終的 3D 邊界框。如下圖所示:
實現細節
1. Triple Attention三元注意力機制分別由點注意力,通道注意力,和體素注意力組成。如下圖所示:
V是輸入體素網格,首先使用Point-wise和Channel-wise得到融合的注意力特徵圖M,根據它得到注意力作用後的體素特徵F1,體素注意力機制作用在F1上,得到最終體素特徵F2。
2. Coarse-to-Fine Regression
粗糙到精細的迴歸是一種二級迴歸的方式,利用粗糙迴歸模組的輸出外接框作為細化迴歸模組的錨點來執行 3D 邊界框估計。如下圖所示:
Fine Regression輸入是Coarse Regression的中間變數。可以說Coarse Regression部分網路指導Fine Regression部分網路。
要點分析
1. 借鑑NLP和影象領域較火的注意力機制,採用此類萬金油模組提取被關注目標的特徵資訊,設計了針對點雲特性的Triple Attention模組,該模組聯合考慮通道注意力、點注意力和體素注意力,並執行堆疊操作從而獲得多級特徵注意力,進而得到物件的判別表示;2. 考慮到在在噪聲環境下,僅應用單個迴歸器模組做 3D 邊界框定位的效果不佳。提出新型 coarse-to-fine regression 機制,基於粗糙迴歸結果,利用新型 Pyramid Sampling Aggregation融合方法得到跨層特徵圖,並細化基於融合後的跨層特徵圖實現,從而得到更精細的估計結果。3. 該方法在難度較高的噪聲環境中取得了不錯的實驗結果,在 KITTI 基準資料集上的量化比較結果表明,TANet 方法獲得了當前最優效能,且其推斷速度很快。
上圖是本文在難例檢測上與PointPillars的對比效果圖。針對小目標的檢測常規的網路會有較多的漏檢和誤檢問題。
思考展望
該文主要解決了前面提到的兩個問題:提高了難例檢測的準確率;增強檢測在噪聲環境下的魯棒性。雖然實驗結果的提升並沒有太大的飛躍,但是這種注意力機制模組屬於即插即用型,完全可以整合到其他更先進的網路結構中。二級迴歸的思想有點類似於Faster RCNN系列相對於YOLO系列的差別,在影象的兩階段檢測中就是在第一階段預測出前後背景,第二階段針對某區域的前景在做位置的迴歸。