回覆列表
  • 1 # 大位元商務網

    計算機視覺時代來臨 誰搶先爆發?

    計算機視覺是什麼?計算機視覺是指計算機如何處理和理解影象,從Intel的RealSense到谷歌的Project Tango手機、微軟Kinect體感器、三星Gear VR眼鏡再到最新微軟的Hololens,計算機視覺技術正滲透到手機、PC、機器人、無人機等你能想到的任何地方,是人工智慧生態系統的重要組成部分。

    英特爾連續兩年在開發者大會上展示其實感技術RealSense,向PC製造商提供軟體開發工具包和3D攝像頭,好讓PC擁有“感覺”。憑藉RealSense技術,PC攝像頭可以對周圍環境進行3D掃描並學會很多東西,比如縱深。今年的IDF上,英特爾CEO科再奇更將“計算真實可感”作為此次大會的主題,從最新Tango手機到無人機的室內飛行,展示出RealSense實感技術的各種實際應用,遍及工業、機器人、消費電子等領域,讓實感技術走進我們的日常生活。

    Intel實感3D攝像頭由三枚鏡頭組成,傳統鏡頭、紅外鏡頭和紅外鐳射放映儀,也可以稱之為深度攝像頭。透過三枚鏡頭間的合作,發射並探測物體反射回來的紅外線,來計算裝置前方物體的深度。計算得到的資料,與英特爾實感動作跟蹤軟體配合,生成免觸控的、可以響應手部、臂部和頭部運動及面部表情的虛擬介面。英特爾實感技術開闢了全新的遊戲方式及體驗。透過姿勢控制以及互動式遊戲體驗,能帶給遊戲玩家身臨其境,隨心所欲的遊戲操控。

    由於Intel實感3D攝像頭可以感知深度資訊,您可以整體移除或替換影片聊天背景。英特爾和微軟合作,將Skype*和Lync*上的影片呼叫功能更改為個性化的互動,使其可以支援更為引人入勝的虛擬會議。將呼叫者們的背景移除,或者統一移動到一個新的背景中,創造更方便生動的會議環境。如此可見,英特爾實感技術將虛擬場景與真實場景做到很好的結合,起到增強實感的作用。

    目前Intel實感3D攝像頭有三款可選,面向2合1、膝上型電腦、一體機的F200,位於正面,有效距離在0.2~1.2米,僅限室內;面向平板、2合1的R100/R200,位於背面,室內多至3~4米。近距離深度攝像頭用於手勢識別,遠距離深度攝像頭用於環境感知和建模,業內相關人士預測,未來99%的AR裝置和50%以上的VR裝置將配備深度攝像頭。

    據ABI Research稱,預計虛擬現實裝置在未來五年將會迅速增長,其間年複合增長幅度為106%,到2020年總髮貨量將達到4300萬件,累計出貨量將超過1億臺。由於該領域充滿市場想象力,全球科技業巨頭都不惜花費大量資金來佈局。最著名的收購來自蘋果3.6億美元收購Kinect一代的技術供應商PrimeSense,而VR巨頭Oculus(它本身也是被Facebook以20億美元收購)近期已經連續收購5家計算視覺領域的創業公司。Intel的RealSense實感攝像頭也是收購多家相關領域公司以後的結果,微軟則在Kinect二代產品中拋棄了PrimeSense的技術方案(也造成了PrimeSense被蘋果收購的結果),收購了Canesta公司並使用該公司的ToF技術方案,同時還收購了3DV系統公司做動作識別。谷歌則透過開發Tango專案來切入該領域,由於它直接針對移動裝置,技術難度甚至更高,它所採用的計算視覺專用處理器也已經成為歐美半導體創業的最新熱點。在本次IDF上,谷歌和Intel宣佈合作開發相關技術,將該領域的熱度炒到高潮。

    正是巨頭的積極佈局,使得相關領域的創業和投資活動開始熱鬧起來。來自上海的圖漾科技便是國內實時景深技術開發的代表,該團隊成員在深度攝像頭硬體和演算法上有超過五年的經驗和技術積累。圖漾創始人費浙平表示,隨著技術的快速發展,深度攝像頭的應用早已突破遊戲領域,機器人室內定位和導航與安防領域的行為模式預警開始進入商業化階段。

    目前,實現深度探測的主流技術主要有三種,(單目)結構光、雙目可見光(可配合紅外補光)和飛行時間法(ToF)三種。英特爾實感攝像頭採用的是第一種技術,透過向檢測空間內投射經過編碼的鐳射光斑陣列,對空間進行標定並輔助計算三維空間位置。而圖漾科技則創造性的採用“結構光+雙目攝像頭”的技術方式實現景深計算,它的優勢在於有更好的環境適應能力與可靠性,提供更高的深度圖質量,同時規避了PrimeSense的專利,目前圖漾團隊的關鍵創新和技術內容已經申請了多項發明專利。

    由於圖漾的技術優勢和應用前景,目前圖漾開發的產品樣機已經交付首批客戶。隨著業內最大的技術供應商PrimeSense被蘋果收購,今年將停止所有對外授權和供貨,急需深度攝像頭的廠商需要尋找替代方案。由於該技術門檻極高,能夠找到的技術供應商非常有限,而圖漾的獨立技術供應商身份,使得他們的深度攝像頭成為很好的替代技術方案。費浙平笑言,”客戶對我們產品的需求非常飢渴。我們現在最大的挑戰就是擴充各類資源、加快產品研發速度,儘快跟上客戶的需求。”

    【技術】利用深度神經網路和計算機視覺分析臉部表情

    辨別臉部表情和情緒是人類社會互動早期階段中一項基本且非常重要的技能。人類可以觀察一個人的臉部,並且快速識別常見的情緒:怒、喜、驚、厭、悲、恐。將這一技能傳達給機器是一項複雜的任務。研究人員經過幾十年的工程設計,試圖編寫出能夠準確識別一項特徵的計算機程式,但仍必須不斷地反覆嘗試,才能識別出僅有細微差別的特徵。

    那麼,如果不對機器進行程式設計,而是直接教機器精確地識別情緒,這樣是否可行呢?

    深度學習(deep learning)技術對於降低計算機視覺(computer vision)識別和分類的錯誤率展現出巨大的優勢。在嵌入式系統中實施深度神經網路(見圖1)有助於機器透過視覺解讀臉部表情,並達到類似人類的準確度。

    圖1:深度神經網路的簡單例子

    神經網路可經由訓練而識別出模式,而且如果它擁有輸入輸出層以及至少一個隱藏的中間層,則被認為具有“深度”識別能力。每個節點從上一層中多個節點的加權輸入值而計算出來。這些加權值可經過調整而執行特別的影像識別任務。這稱為神經網路訓練過程。

    例如,為了訓練深度神經網路識別面帶開心笑臉的照片,我們向其展示開心的圖片作為輸入層上的原始資料(影像畫素)。由於知道結果是開心,網路就會識別圖片中的模式,並調整節點加權,儘可能地減少開心類別圖片的錯誤。每個顯示出開心表情並帶有批註的新圖片都有助於最佳化圖片權重。藉由充份的輸入資訊與訓練,網路可以攝入不帶標記的圖片,並且準確地分析和識別與開心表情相對應的模式。

    深度神經網路需要大量的運算能力,用於計算所有這些互連節點的加權值。此外,資料儲存器和高效的資料移動也很重要。卷積神經網路(CNN)(見圖2)是目前針對視覺實施深度神經網路中實現效率最高的先進技術。CNN之所以效率更高,原因是這些網路能夠重複使用圖片間的大量權重資料。它們利用資料的二維(2D)輸入結構減少重複運算。

    *圖2:用於臉部分析的卷積神經網路架構(示意圖) *

    實施用於臉部分析的CNN需要兩個獨特且互相獨立的階段。第一個是訓練階段,第二個是部署階段。

    訓練階段(見圖3)需要一種深度學習架構——例如,Caffe或TensorFlow——它採用中央處理器(CPU)和繪圖處理器(GPU)進行訓練計算,並提供架構使用知識。這些架構通常提供可用作起點的CNN圖形範例。深度學習架構可對圖形進行微調。為了實現儘可能最佳的精確度,可以增加、移除或修改分層。

    圖3:CNN訓練階段

    在訓練階段的一個最大挑戰是尋找標記正確的資料集,以對網路進行訓練。深度網路的精確度高度依賴於訓練資料的分佈和質量。臉部分析必須考慮的多個選項是來自“臉部表情識別挑戰賽”(FREC)的情感標註資料集和來自VicarVision (VV)的多標註私有資料集。

    針對實時嵌入式設計,部署階段(見圖4)可實施在嵌入式視覺處理器上,例如帶有可程式設計CNN引擎的Synopsys DesignWare EV6x嵌入式視覺處理器。嵌入式視覺處理器是均衡效能和小面積以及更低功耗關係的最佳選擇。

    圖4:CNN部署階段

    雖然標量單元和向量單元都採用C和OpenCL C(用於實現向量化)進行程式設計設計,但CNN引擎不必手動程式設計設計。來自訓練階段的最終圖形和權重(係數)可以傳送到CNN對映工具中,而嵌入式視覺處理器的CNN引擎則可經由配置而隨時用於執行臉部分析。

    從攝影機和影像感測器擷取的影像或視訊畫面被饋送至嵌入式視覺處理器。在照明條件或者臉部姿態有顯著變化的識別場景中,CNN比較難以處理,因此,影像的預處理可以使臉部更加統一。先進的嵌入式視覺處理器的異質架構和CNN能讓CNN引擎對影像進行分類,而向量單元則會對下

    一個影像進行預處理——光線校正、影像縮放、平面旋轉等,而標量單元則處理決策(即如何處理CNN檢測結果)。

    影像解析度、畫面更新率、圖層數和預期的精確度都要考慮所需的平行乘積累加數量和效能要求。Synopsys帶有CNN的EV6x嵌入式視覺處理器採用28nm工藝技術,以800MHz的速率執行,同時提供高達880MAC的效能。

    一旦CNN經過配置和訓練而具備檢測情感的能力,它就可以更輕鬆地進行重新配置,進而處理臉部分析任務,例如確定年齡範圍、識別性別或種族,並且分辨髮型或是否戴眼鏡。

    總結

    可在嵌入式視覺處理器上執行的CNN開闢了視覺處理的新領域。很快地,我們周圍將會充斥著能夠解讀情感的電子產品,例如偵測開心情緒的玩具,以及能經由識別臉部表情而確定學生理解情況的電子教師。深度學習、嵌入式視覺處理和高效能CNN的結合將很快地讓這一願景成為現實。

  • 中秋節和大豐收的關聯?
  • 外星生物出現是禍還是福?