譯者:五百英里
摘要
本文的目的是估計RGB-D影象中未見過的物件例項的6D姿態和尺寸。與“例項級”6D姿態估計任務相反,我們的問題假設在訓練或測試期間沒有可用的精確物件CAD模型。為了處理給定類別中不同且未見過的物件例項,我們引入了標準化物件座標空間(NOCS)-類別中所有可能物件例項的共享規範表示。然後,我們訓練了基於區域的神經網路,可以直接從觀察到的畫素向對應的共享物件表示(NOCS)推斷對應的資訊,以及其他物件資訊,例如類標籤和例項蒙版。可以將這些預測與深度圖結合起來,共同估算雜亂場景中多個物件的6D姿態和尺寸。為了訓練我們的網路,我們提出了一種新的上下文感知技術,以生成大量完全標註的混合現實資料。為了進一步改善我們的模型並評估其在真實資料上的效能,我們還提供了具有大型環境和例項變化的真實資料集。大量實驗表明,所提出的方法能夠穩健地估計實際環境中未見過的物件例項的姿態和大小,同時還能在標準6D姿態估計基準上實現最新的效能。
1 引言
檢測物件並估計其3D位置、方向和大小是對虛擬現實和增強現實(AR)、機器人技術和3D場景的重要要求。這些應用程式需要在可能包含以前未見過的物件例項的新環境中執行。過去的工作探討了例項級6D姿態估計問題[37,46,27,51,6,28],其中事先提供了精確的CAD模型及其大小。不幸的是,這些技術無法在絕大多數物件從未見過且沒有已知CAD模型的常規設定中使用。另一方面,類別級別的3D物件檢測方法[43、36、9、34、49、12]可以估計物件類別標籤和3D邊界框,而無需精確的CAD模型。但是,估計的3D邊界框取決於視點,並且不對物件的精確方向進行編碼。因此,這兩種方法都無法滿足需要6D姿態和3個非均勻縮放參數(編碼尺寸)的未見過物件的應用程式的要求。
在本文中,我們旨在透過介紹據我們所知第一種用於多個物件的類別級6D姿態和尺寸估計的方法,以彌合這兩種方法之間的差距,這對於新穎的物件例項而言是一個難題。由於我們無法將CAD模型用於未見過的物體,因此第一個挑戰是找到一種表示形式,該表示形式可以定義特定類別中不同物件的6D姿態和尺寸。第二個挑戰是無法使用大規模資料集進行訓練和測試。SUN RGB-D或NYU v2等資料集缺少用於精確6D姿態和尺寸的註釋,或不包含物件類別-而在桌面或桌面操作任務中瞭解出現物件的6D姿態和尺寸將非常有用。
圖1我們提出了一種用於RGB-D影象中多個未見過物體的類別級別6D姿態和尺寸估計的方法。一種新穎的歸一化物件座標空間(NOCS)表示形式(在(b)中用顏色編碼)使我們能夠在類別級別上一致地定義6D姿態。我們獲得了未見過的物體的完整6D姿態((c)中的軸)和尺寸((c)中的紅色邊框)。
為了解決表示挑戰,我們將問題公式化為在共享物件描述空間中找到物件畫素與規範化座標之間的對應關係(請參見第3節)。我們定義了一個稱為標準化物件座標空間(NOCS)的共享空間,其中所有物件都包含在一個公共的標準化空間中,並且類別內的所有例項都始終一致。即使對於未見過的物體例項,這也可以進行6D姿態和尺寸估計。我們方法的核心是卷積神經網路(CNN),它可以從單個RGB影象聯合估計物件類別,例項蒙版和多個物件的NOCS對映。直觀地,NOCS對映捕獲可見光的歸一化形狀透過預測物件畫素和NOCS之間的密集對應關係來預測物件的各個部分。我們的CNN透過將NOCS對映表述為畫素迴歸或分類問題來對其進行估算。然後,使用姿態擬合方法將NOCS對映與深度對映一起使用,以估計完整的6D姿態和物件的尺寸大小。
為了應對資料挑戰,我們引入了一種空間感知上下文的混合現實方法,以自動生成大量資料(275K訓練,25K測試),這些資料由ShapeNet Core與真實桌面場景合成的逼真的合成物件組成 。這種方法可以自動生成具有雜亂物件和全地面真相註釋的真實資料,以用於類別標籤,例項蒙版,NOCS對映,6D姿態和尺寸大小。我們還提供了一個用於訓練和測試的真實資料集,其中包含18種不同場景以及6種物體類別的地面真實6D姿態和尺寸註釋,總共有42個唯一例項。據我們所知,我們是針對6D姿態和尺寸以及3D物件檢測任務的最大,最全面的訓練和測試資料集。
我們的方法使用來自商品RGB-D感測器的輸入,旨在處理對稱和非對稱物件,使其適合於許多應用。圖1顯示了我們的方法在桌面場景上執行的示例,其中在訓練過程中有多個未見過的物件。總而言之,這項工作的主要貢獻是:
標準化物件座標空間(NOCS),一個統一的共享空間,允許不同但相關的物件具有一個公共參考系,從而可以對未見過的物件進行6D姿態和尺寸估計。一個CNN,可共同預測RGB影象中多個未見過的物件的類標籤,例項蒙版和NOCS對映。我們在姿態擬合算法中將NOCS圖與深度圖一起使用,以估計完整的6D姿態和物件尺寸。資料集:一種空間感知上下文的混合現實技術,用於在真實影象中合成物件,使我們能夠生成大型帶註釋的資料集來訓練我們的CNN。我們還提供了經過全面註釋的真實世界資料集,用於訓練和測試。2 相關工作
在本節中,我們重點介紹與類別級別3D物件檢測,例項級別6D姿態估計,RGB-D影象類別級別4 DoF姿態估計以及不同資料生成策略有關的工作。
類別級別的3D物件檢測:預測物件的6D姿態和尺寸的挑戰之一是將它們定位在場景中並找到其物理尺寸,可以將其表述為3D檢測問題[54、22、21, 31,14]。值得注意的嘗試包括[43,55],他們將3D體積資料作為輸入來直接檢測3D物件。另一項工作思路[36、20、10、29]提出,首先要在2D影象中生成2D物件建議,然後將建議投影到3D空間中以進一步完善最終的3D邊界框位置。上述技術達到了令人印象深刻的3D檢測率,但不幸的是,它僅專注於找到物件的邊界體積,而沒有預測物件的6D姿態。
例項級6 DoF姿態估計:鑑於其實際的重要性,目前有大量工作專注於例項級6D姿態估計。在這裡,任務是提供物件的3D位置和3D旋轉(無比例),假設在訓練過程中可以使用精確的3D CAD模型和這些物件的大小。現有技術可大致歸類為模板匹配或物件座標迴歸技術。模板匹配技術將3D CAD模型與諸如迭代最近點[4,53]之類的演算法對齊到觀察到的3D點雲,或使用手工製作的本地描述符進一步指導對齊過程[26,11]。這一系列技術經常遭受物件間和物件內的遮擋,這在我們僅對物件進行部分掃描時很常見。基於物件座標迴歸的第二類方法旨在使與每個物件畫素相對應的物件表面位置迴歸。此類技術已成功應用於身體姿態估計[45,18],攝像機重新定位[39,48]和6D物件姿態估計[5]。
在訓練和測試期間,以上兩種方法都需要物件的精確3D模型。除了在測試時將所有3D CAD模型或學習的物件座標迴歸器儲存在記憶體中的實際限制外,捕獲非常大的物件陣列的高保真度和完整的3D模型也是一項艱鉅的任務。儘管我們的方法受物件座標迴歸技術的啟發,但由於我們在測試時不再需要完整且高保真的物件3D CAD模型,因此它與上述方法也有很大不同。
類別級別4 DoF姿態估計:在類別級別姿態估計方面已有一些工作[20、42、19、35、7],但是它們都做出了簡化的假設。首先,這些演算法將旋轉預測約束為僅沿重力方向(僅四個自由度)。其次,它們專注於一些大型的房間物件類別(例如,椅子,沙發,床或汽車),並且沒有考慮物件對稱性[20、42、19]。相反,我們估計了各種手部比例物件的姿態,由於姿態變化較大,這些姿態通常比房間比例大小的物件具有更大的挑戰性。我們的方法還可以預測完整的6D姿態和尺寸,而無需假設物體的重力方向。最終,我們的方法以每幀0.5 s執行,這比替代方法([20]每幀約70 s,[42]每幀25分鐘)要快得多。
訓練資料的生成:訓練CNN的一個主要挑戰是缺乏具有足夠類別,姿態,雜亂和光照變化的訓練資料。為了構建包含物件標籤的現實世界資料集已經進行了一些努力(例如[40、41、50])。不幸的是,這些資料集往往相對較小,主要是由於與地面真相註釋相關聯的高成本(時間和金錢)。這一限制是其他作品(例如[35、44、51])產生動力的原因,這些作品生成的資料完全是合成的,從而可以以較低的成本生成大量完美註釋的訓練資料。為了簡單起見,所有這些資料集都忽略了因素(材料,感測器噪聲和照明)的組合,這些因素在合成數據分佈和實際資料分佈之間造成了實際的差距。為了縮小這種差距,[13]生成了透過在真實背景上渲染虛擬物件來混合真實資料和合成資料的資料集。當背景是真實的,渲染的物件在空中飛行並且脫離上下文[13],這阻止了演算法利用重要的上下文線索。
我們引入了一種新的混合現實方法,以一種上下文感知的方式自動生成由物件和真實背景的合成渲染組成的大量資料,這使得它更加現實。這得到了實驗的支援,實驗表明,我們的上下文感知訓練資料使模型能夠更好地推廣到真實的測試資料。我們還提出了一個真實世界的資料集,以進一步改進學習和評估。
3 背景和概述
類別-級別6D物件姿態和尺寸大小估計:我們關注估計物件例項的3個旋轉,3個平移和3個比例引數(尺寸)的問題。這個問題的解決方案可以看成一個圍繞物件的緊密包圍的邊界框(見圖1)。儘管以前沒有觀察到這些物件,但是這些物件來自在訓練過程中已觀察到訓練樣本的已知物件類別(例如,相機)。這項任務特別具有挑戰性,因為我們無法在測試時使用CAD模型,並且無法為未見過的物體定義6D姿態。為了克服這個問題,我們提出了一種新的表示形式,它定義了一個共享的物件空間,從而可以為未見過的物件定義6D姿態和尺寸大小。
圖2.規範化物件座標空間(NOCS)是包含在單位多維資料集中的3D空間。對於給定的物件類別,我們使用面向規範的例項並將其規範化以位於NOCS內。將NOCS中的每個(x,y,z)位置視覺化為RGB顏色元組。我們根據NOCS在RGB影象上的透視投影,NOCS對映(左下插圖)來訓練我們的網路。在測試時,網路會將NOCS映射回歸,然後將其與深度對映一起用於6D姿態和尺寸估計。
歸一化物件座標空間(NOCS):將NOCS定義為包含在單位立方體內的3D空間,即{x,y,z}∈[0,1]。給定每個類別的已知物件CAD模型的形狀集合,我們透過均勻縮放物件以使其緊邊界框的對角線的長度為1並在NOCS空間內居中來對它們的大小進行歸一化(請參見圖2)。此外,我們在同一類別中一致地對齊物件中心和方向。我們使用ShapeNetCore [8]中的模型,這些模型已經針對尺寸,位置和方向進行了規範化處理。圖2顯示了相機類別中規範化形狀的示例。我們的表示允許將形狀的每個頂點表示為NOCS(圖2中的顏色編碼)內的元組(x,y,z)。
我們的CNN可以預測以顏色編碼的NOCS座標的2D透視投影,即NOCS對映(圖2的左下方)。可以使用多種方法來解釋NOCS對映:(1)以NOCS形式對物體的觀察部分進行形狀重構,或者(2)作為密集的畫素-NOCS對應關係。我們的CNN學會對未見過的物體進行形狀預測,或者在對大型形狀集合進行訓練時學會預測物體畫素與NOCS的對應關係。這種表示比其他方法(例如邊界框)更健壯,因為即使在物件僅部分可見的情況下我們也可以操作。
方法概述:圖3說明了我們的方法,該方法使用RGB影象和深度圖作為輸入。CNN僅從RGB影象估計類別標籤,例項蒙版和NOCS對映。我們在CNN中不使用深度圖,因為我們想利用不包含深度的現有RGB資料集(例如COCO)來提高效能。NOCS對映對標準化空間中物件的形狀和大小進行編碼。因此,我們可以在以後的階段使用深度圖來提升此歸一化空間,並使用可靠的異常值移除和對齊技術來預測完整的6D物件姿態和尺寸。
圖3.我們方法的輸入是具有多個物件的場景的RGB和深度影象。我們的CNN會為RGB影象中的每個物件預測類別標籤,例項蒙版和NOCS對映(顏色編碼)。然後,我們將每個物件的NOCS對映與深度影象一起使用,以獲取完整的6D姿態和尺寸(軸和紅色緊邊框),即使以前從未見過該物件。
我們的CNN建立在Mask R-CNN框架[23]之上,並進行了改進以共同預測NOCS對映,此外還添加了類別標籤和例項分割。第5節包含有關我們的改進和可以處理對稱物件的新損失函式的更多詳細資訊。在訓練期間,我們使用透過新的上下文感知MixEd ReAlity(CAMERA)方法渲染的地面真相影象(請參見第4節)。龐大的資料集使我們可以在測試時將新類別的新例項推廣到新的例項。為了進一步縮小領域差距,我們還使用了較小的實際資料集。
4 資料集
類別級別3D檢測以及6D姿態和尺寸大小估計的主要挑戰是資料ground truth的可用性。儘管已經進行了許多嘗試,例如NYU v2 [40]和SUNRGB-D [41],但它們具有較大的侷限性。首先,它們不提供物件的6D姿態,而僅關注3D邊界框。其次,諸如增強現實和機器人技術之類的應用受益於桌面設定中的手動縮放物件,而當前設定集中於椅子和桌子等較大物件的資料集中缺少這些物件。最後,這些資料集不包含我們所需的ground truth型別的註釋(即,NOCS對映),並且包含數量有限的示例。
4.1 情境感知的混合現實方法環境感知混合現實途徑
為了便於生成具有手部比例尺物件的ground truth的大量訓練資料,我們提出了一種新的上下文感知的MixEd ReAlity(CAMERA)方法,該方法解決了以前方法的侷限性,並減少了資料生成的時間消耗,並顯著提高了效益。它以上下文感知的方式將真實的背景影象與合成渲染的前景物件結合在一起,即,合成物件被渲染併合成為具有合理物理位置,照明和比例的真實場景(參見圖4)。這種混合現實方法使我們能夠生成比以前更多的訓練資料。
真實場景:我們使用31種室內場景的真實RGB-D影象作為背景(圖4中間)。我們的重點是放在桌面場景上,因為大多數以人為中心的室內空間都是由桌面表面和可縮放的物體組成的。我們總共為31個場景收集了553張影象,其中有4張用於驗證。
合成物件:為了在上述真實場景中渲染逼真的物件,我們從ShapeNetCore [8]中選擇了手工縮放的物件,手動刪除了看起來不真實或存在拓撲問題的物件。總共,我們選擇了6個物件類別-瓶,碗,相機,罐,膝上型電腦和杯子。我們還建立了一個干擾項類別,該類別由上面未列出的類別(例如監視器,電話和吉他)中的物件構成。即使在場景中存在其他物件的情況下,也可以為主要類別做出預測時提高魯棒性。我們精心策劃的ShapeNet Core版本包括1085個單獨的物件例項,其中我們預留了184個例項進行驗證。
情境感知合成:為了提高真實感,我們以情境感知方式合成虛擬物件,即我們將它們放置在有可能的光線下自然發生的位置(例如,在支撐表面上)。我們使用平面檢測演算法[15]來獲得真實影象中的畫素級平面分割。隨後,我們在可以放置合成物件的分段平面上取樣隨機位置和方向。然後,我們放置幾個虛擬光源來模擬真實的室內照明條件。最後,我們將渲染的影象和真實的影象相結合,以生成具有完美的地面真實NOCS圖,蒙版和類別標籤的逼真的合成影象。
我們總共渲染了300K合成影象,其中有25K用於驗證。據我們所知,這是類別級6D姿態和尺寸估計的最大資料集。我們的混合現實合成技術是使用Unity遊戲引擎[2]和自定義外掛進行平面檢測和點取樣(全部將公開發布)來實現的。與使用無上下文感知的資料相比,使用我們的方法生成的影象看起來合理且逼真,從而使泛化能力提高。
圖4.我們使用上下文感知的MixEd ReAlity(CAMERA)方法透過組合桌面場景的真實影象,檢測平面表面並將合成物件渲染到平面表面上來生成資料(左圖)。由於物件是合成物件,因此我們可以獲得類別標籤,例項蒙版,NOCS對映以及6D姿態和尺寸大小的準確ground truth情況。我們的方法快速,具有成本效益,併產生逼真的影象(中間)。我們還收集了用於訓練,測試和驗證的真實資料集(右)。
4.2 真實世界資料
為了進一步改善和驗證我們的演算法在充滿挑戰的雜亂和光照條件下的真實世界效能,我們捕獲了兩個真實世界資料集:(1)真實世界訓練資料集補充了我們先前生成的混合現實資料,(2) 真實的測試資料集,以評估6D姿態和尺寸估計的效能。我們開發了一種半自動方法來註釋物體姿態和尺寸的ground truth。圖4顯示了我們真實資料的示例。
我們使用結構感測器[1]捕獲了18個不同真實場景的8K RGB-D幀(用於訓練的4300,用於驗證的950和用於測試的2750)(分別用於訓練的7個場景,用於驗證的5個場景和用於測試的6個場景)[1]。對於每個訓練和測試子集,我們使用6個類別,每個類別使用3個唯一例項。對於驗證集,我們使用6個類別,每個類別1個唯一例項。我們在每個場景中放置5個以上的物件例項,以模擬現實世界中的雜亂情況。對於每種情況,我們都使用為此目的開發的RGB-D重建演算法獲得了乾淨且準確的3D網格。總體而言,我們的組合資料集包含18個不同的真實場景,42個唯一的物件例項,涵蓋6個類別,使其成為類別級6D姿態和尺寸估計的最全面的資料集。
5 方法
圖3顯示了我們從RGB-D影象中對多個先前未見過的物件進行6D姿態和大小估計的方法。CNN會預測物件的類別標籤,蒙版和NOCS對映。然後,我們使用NOCS圖和深度圖來估計度量6D姿態和物件的大小。
5.1. NOCS地圖預測CNN
我們的CNN的目標是純粹基於RGB影象估算物件的類標籤,例項蒙版和NOCS對映。我們建立在基於區域的Mask R-CNN框架[23]之上,因為它展示了2D物件檢測和例項分割任務的最新效能,具有模組化,靈活,快速,並且可以輕鬆地進行增強以預測NOCS對映,如下所述。
5.1.1 NOCS Map Head
maskR-CNN建立在Faster R-CNN體系結構之上[38],它由兩個模組組成一個用於建議可能包含物件的區域的模組,以及一個用於檢測和分類區域內物件的檢測器。此外,它還可以預測區域內物件的例項分割。
圖5.NOCS map head架構。我們向Mask R-CNN體系結構添加了三個附加的頭部,以預測NOCS對映(彩色框)的x,y,z座標。這些頭可以用於直接畫素迴歸或分類(最佳)。我們使用ReLU啟用和3×3卷積。
我們的主要貢獻是為Mask R-CNN添加了3個頭部結構,以預測NOCS對映的x,y,z分量(請參見圖5)。對於每個建議的興趣區域(ROI),頭的輸出大小為28×28×N,其中N是類別數,每個類別包含該類別中所有檢測到的物件的x(或y,z)座標。與mask頭類似,我們在測試過程中使用物件類別先查詢相應的預測通道。在訓練期間,損失函式中僅使用地面真實物體類別的NOCS對映元件。我們使用ResNet50 [25]主幹與功能金字塔網路(FPN)結合使用。
迴歸與分類:為了預測NOCS對映,我們可以透過離散化畫素值來回歸每個畫素值或將其視為分類問題(由圖5中的(B)表示)。直接回歸可能是一項艱鉅的任務,有可能在訓練過程中引入不穩定性。類似地,具有大量類別(例如B = 128、256)的畫素分類可能會引入更多引數,從而使訓練比直接回歸更具挑戰性。我們的實驗表明,B = 32的畫素分類比直接回歸的效果更好。
損失函式:我們網路的類,框和mask head使用與[23]中所述相同的損失函式。對於NOCS對映頭,我們使用兩個損失函式:用於分類的標準softmax損失函式,以及用於迴歸的以下softL1損失函式,這使學習更加強大。
訓練協議:我們用在COCO資料集上的二維例項分割任務上訓練的權重來初始化ResNet50,RPN和FPN [33]。對於所有頭,我們使用[24]中提出的初始化技術。batch size使用2,初始學習率為0.001,以及SGD最佳化器,其動量為0.9,重量衰減為。在訓練的第一階段,我們凍結ResNet50權重,僅訓練磁頭中的圖層(RPN和FPN)進行10K迭代。在第二階段,我們將ResNet50層凍結在4級以下,並進行3K迭代訓練。在最後階段,我們將ResNet50層凍結在3級以下,再進行70K次迭代。切換到每個階段時,我們的學習率都會降低十分之一。
5.2 6D姿態和尺寸估計
我們的目標是透過使用NOCS對映和輸入深度圖來估算檢測到的物體的6D姿態和尺寸。為此,我們使用RGB-D相機的內部和外部特性將深度影象與彩色影象對齊。然後,我們應用預測的物件蒙版以獲得檢測到的物件的3D點雲Pm。我們還使用NOCS對映獲得Pn的3D表示。然後,我們估計將Pn轉換為Pm的比例,旋轉和平移。對於這個7維剛性變換估計問題,我們使用Umeyama演算法[47],對於異常值去除,我們使用RANSAC [16]。
備註:作者也是我們「3D視覺從入門到精通」特邀嘉賓:一個超乾貨的3D視覺學習社群