在增強現實平臺ARKit和ARCore推出後,谷歌於2018年將其在此之前推出的開創性AR平臺Project Tango(為我們提供了第一臺帶有深度感測器的智慧手機)淘汰,在之後我們逐漸看到越來越多品牌在其旗艦裝置中新增深度感測器相關的元件。
三星為其Galaxy Note 10和Galaxy S10 5G恢復了飛行時間(ToF)感測器,儘管它已放棄了其當前型號的感測器。谷歌也在其Pixel 4中的Project Soli對雷達進行了簡短介紹。而蘋果在其TrueDepth前置攝像頭取得突破後,為最新的旗艦系列機型iPhone 12 Pro和iPad Pro系列產品添加了LiDAR感測器。
現在,谷歌的AI研究團隊為開發人員提供了一套工具,以充分利用這些感測器生成的3D資料。
谷歌在近日向TensorFlow儲存庫中添加了TensorFlow 3D(TF 3D),這是一個關於3D深度學習模型的資料庫,其中包括3D語義分割、3D物件檢測和3D例項分割,可用於自動駕駛汽車和機器人,以及具有3D深度理解裝置的移動AR體驗。
“計算機視覺領域最近已開始在3D場景理解方面取得良好進展,包括用於移動裝置的3D物件檢測、透明物件檢測的模型,但是由於能應用3D資料的可用工具和資源有限,進入該領域可能會面臨挑戰,”研究科學家Alireza Fathi和谷歌研究院AI研究員AI Rui Huang在官方部落格中寫道。 “ TF 3D提供了一組流行的運算、損失函式、資料處理工具、模型和度量,使更廣泛的研究社群能夠開發、培訓和部署最新的3D場景理解模型。”
3D語義分割模型使應用程式能夠區分一個或多個前景物件與場景背景,例如Zoom中的虛擬背景。谷歌已為YouTube應用了具有虛擬影片背景的類似技術。
相比之下,“ 3D例項分割”模型將一組物件標識為單個物件,例如Snapchat鏡頭可以將虛擬蒙版放置在相機檢視中的多個人身上。最終,“ 3D物件檢測”模型透過對檢視中的物件進行分類,使例項分割更進一步。感興趣的開發人員可在GitHub上獲得TF 3D庫。
儘管這些功能已在標準智慧手機相機中得到證明,但來自LiDAR和其他飛行時間感測器的深度資料的可用性為高階AR體驗開闢了新的可能性。
即使沒有3D儲存庫,TensorFlow也為一些不錯的AR體驗做出了貢獻。Wannaby就利用TensorFlow為其指甲油AR試色提供幫助,Capital One也利用TensorFlow來識別汽車並在AR中疊加有關汽車的資訊。
近年來,谷歌還透過TensorFlow將機器學習用於其他AR用例。在2017年,該公司釋出了MobileNets儲存庫,用於在Google Lens中進行影象檢測。 TensorFlow也是其Augmented Faces API(也適用於iOS)背後的技術,該技術將類似Snapchat的自拍濾鏡引入其他移動應用程式中。
谷歌也不是第一次將深度感測器資料用於AR體驗。雖然用於ARCore的深度API支援遮擋,但對於透過標準智慧手機攝像頭實現的移動應用而言,使虛擬內容出現在現實物件前後的這項技術與深度感測器配合起來會有更好的效果。
事實證明,機器學習對於建立高階AR體驗是必不可少的。基於對AI研究的關注,谷歌在AR的未來中扮演著與蘋果、Facebook、Snap以及微軟一樣重要的角色。