基於深度連續融合的多感測器三維目標檢測

首頁>科技>淡墨餘香dmyx2021-02-25 13:23

基於深度連續融合的多感測器三維目標檢測

單眼視覺系統以低成本高效能實現令人滿意的效果，但無法提供可靠的3D幾何資訊。雙目攝像機可以提供3D幾何資訊，但是它們的計算成本很高，並且無法在高遮擋和無紋理的環境中可靠地工作。另外，該系統在複雜的照明條件下魯棒性較低，這限制了其全天候能力。鐳射雷達不受光照條件的影響，可以提供高精度的3D幾何資訊。但是它的解析度和重新整理率很低，而且成本很高。

Camera-Lidar融合提高了效能和可靠性並降低了成本，但這並不容易。首先，相機透過將現實世界投影到相機平面上來記錄資訊，而點雲以原始座標的形式儲存幾何資訊。此外，就資料結構和型別而言，點雲是不規則，無序和連續的，而影象是規則，有序和離散的。這導致影象和點雲處理演算法的巨大差異。

參考文獻中 [1] 提出了一種新穎的3D目標檢測器，它可以利用鐳射雷達和攝像機進行非常精確的定位。為了實現這一目標，他們設計了一種端到端的可學習架構，該架構利用連續卷積融合不同解析度級別的影象和LIDAR特徵圖。這使我們能夠設計基於多個感測器的新穎，可靠，高效的端到端可學習3D物件檢測器。

模型架構

總體架構包括兩個流，其中一個流從LIDAR鳥瞰圖（BEV）提取影象特徵，另一流從LIDAR鳥瞰圖（BEV）提取特徵，它們設計了一個連續融合層以橋接兩側的多箇中間層，從而執行多感測器融合在多個尺度上。

首先，使用ResNet18分別提取影象流和點雲流（BEV）中的特徵，然後對影象特徵執行多尺度融合，並使用連續融合層將多尺度影象特徵融合到影象的四個殘差組中。

連續融合層

給定輸入的攝像機影象特徵圖和一組LIDAR點，連續融合層的目標是建立一個密集的BEV特徵圖，其中每個離散畫素都包含從攝像機影象生成的特徵。對於密集地圖中的每個目標畫素，使用歐幾里得距離找到其在2D BEV平面上最接近的K個LIDAR點，然後反向投影到3D空間，然後將這k個點投影到相機檢視中，並找到與每個點，然後利用MLP融合來自這K個最近點的資訊，以在目標畫素處插值未觀察到的特徵。

對於每個目標畫素，MLP透過對其所有鄰居的MLP輸出求和來輸出D_o維輸出特徵。也就是說：

其中fj是點j的輸入影象特徵，xj-xi是從相鄰點j到目標i的3D偏移，而concat（·）是多個向量的串聯。然後，透過元素逐級求和將MLP的輸出功能與前一層的BEV功能進行組合，以融合多感測器資訊。

他們使用簡單的檢測頭來提高實時效率。在最終的BEV層上計算一個1×1卷積層以生成檢測輸出。在每個輸出位置，他們使用兩個具有固定大小和兩個方向的錨，分別為0和π/ 2弧度。

每個錨點的輸出包括每個畫素類的置信度及其關聯的框的中心位置，大小和方向。接下來是非最大抑制（NMS）層，基於輸出對映生成最終物件框。損失函式定義為分類損失和迴歸損失之和。

參考文獻 [1] 在KITTI和TOR4D資料集上評估了其多感測器3D目標檢測方法。在KITTI資料集上，與3D目標檢測和BEV目標檢測中的現有高階方法進行了比較，並進行了模型簡化測試，並比較了不同的模型設計。在TOR4D資料集上，此方法在長距離（> 60m）檢測中特別有效，這在自動駕駛的定時和目標檢測系統中起著重要作用。

結論

對於BEV檢測，此模型比中度AP測得的所有其他方法要好。對於3D檢測，此模型排名第三，但在簡單子集中具有最佳AP。在保持高檢測精度的同時，該模型可以實時高效執行。檢測器以大於每秒15幀的速度執行，這比其他基於LIDAR和基於融合的方法要快得多。

參考文獻

[1] Ming Liang, Bin Yang , Shenlong Wang , and Raquel Urtasun .Deep Continuous Fusion for Multi-Sensor 3D Object Detection

最新評論

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 幹得過世界第一圍棋高手的人工智慧，幹不過任何時期的股民

熱門排行

劇多

基於深度連續融合的多感測器三維目標檢測