單眼視覺系統以低成本高效能實現令人滿意的效果,但無法提供可靠的3D幾何資訊。雙目攝像機可以提供3D幾何資訊,但是它們的計算成本很高,並且無法在高遮擋和無紋理的環境中可靠地工作。另外,該系統在複雜的照明條件下魯棒性較低,這限制了其全天候能力。鐳射雷達不受光照條件的影響,可以提供高精度的3D幾何資訊。但是它的解析度和重新整理率很低,而且成本很高。
Camera-Lidar融合提高了效能和可靠性並降低了成本,但這並不容易。首先,相機透過將現實世界投影到相機平面上來記錄資訊,而點雲以原始座標的形式儲存幾何資訊。此外,就資料結構和型別而言,點雲是不規則,無序和連續的,而影象是規則,有序和離散的。這導致影象和點雲處理演算法的巨大差異。
參考文獻中 [1] 提出了一種新穎的3D目標檢測器,它可以利用鐳射雷達和攝像機進行非常精確的定位。為了實現這一目標,他們設計了一種端到端的可學習架構,該架構利用連續卷積融合不同解析度級別的影象和LIDAR特徵圖。這使我們能夠設計基於多個感測器的新穎,可靠,高效的端到端可學習3D物件檢測器。
模型架構
總體架構包括兩個流,其中一個流從LIDAR鳥瞰圖(BEV)提取影象特徵,另一流從LIDAR鳥瞰圖(BEV)提取特徵,它們設計了一個連續融合層以橋接兩側的多箇中間層,從而執行多感測器融合在多個尺度上。
首先,使用ResNet18分別提取影象流和點雲流(BEV)中的特徵,然後對影象特徵執行多尺度融合,並使用連續融合層將多尺度影象特徵融合到影象的四個殘差組中。
連續融合層
給定輸入的攝像機影象特徵圖和一組LIDAR點,連續融合層的目標是建立一個密集的BEV特徵圖,其中每個離散畫素都包含從攝像機影象生成的特徵。對於密集地圖中的每個目標畫素,使用歐幾里得距離找到其在2D BEV平面上最接近的K個LIDAR點,然後反向投影到3D空間,然後將這k個點投影到相機檢視中,並找到與每個點,然後利用MLP融合來自這K個最近點的資訊,以在目標畫素處插值未觀察到的特徵。
對於每個目標畫素,MLP透過對其所有鄰居的MLP輸出求和來輸出D_o維輸出特徵。也就是說:
其中fj是點j的輸入影象特徵,xj-xi是從相鄰點j到目標i的3D偏移,而concat(·)是多個向量的串聯。然後,透過元素逐級求和將MLP的輸出功能與前一層的BEV功能進行組合,以融合多感測器資訊。
他們使用簡單的檢測頭來提高實時效率。在最終的BEV層上計算一個1×1卷積層以生成檢測輸出。在每個輸出位置,他們使用兩個具有固定大小和兩個方向的錨,分別為0和π/ 2弧度。
每個錨點的輸出包括每個畫素類的置信度及其關聯的框的中心位置,大小和方向。接下來是非最大抑制(NMS)層,基於輸出對映生成最終物件框。損失函式定義為分類損失和迴歸損失之和。
參考文獻 [1] 在KITTI和TOR4D資料集上評估了其多感測器3D目標檢測方法。在KITTI資料集上,與3D目標檢測和BEV目標檢測中的現有高階方法進行了比較,並進行了模型簡化測試,並比較了不同的模型設計。在TOR4D資料集上,此方法在長距離(> 60m)檢測中特別有效,這在自動駕駛的定時和目標檢測系統中起著重要作用。
結論
對於BEV檢測,此模型比中度AP測得的所有其他方法要好。對於3D檢測,此模型排名第三,但在簡單子集中具有最佳AP。在保持高檢測精度的同時,該模型可以實時高效執行。檢測器以大於每秒15幀的速度執行,這比其他基於LIDAR和基於融合的方法要快得多。
參考文獻
[1] Ming Liang, Bin Yang , Shenlong Wang , and Raquel Urtasun .Deep Continuous Fusion for Multi-Sensor 3D Object Detection