2017年9月,蘋果釋出了十年紀念之作iPhone X手機,以“劉海屏”設計、Face ID人面識別技術再一次改變世界手機設計標杆,由於異形劉海屏的仿製難度不大,各家手機廠商很快就完成相關產品推出,但對於蘋果擁有核心技術、數年時間研發的Face ID就一籌莫展,Android陣營直到9個月後的才陸陸續續拿出相關技術的期貨手機(小米8探索版、OPPO Find X),那麼他們之間到底是不是一樣的嗎?有何異同?
面部識別技術,是基於人的臉部特徵資訊進行身份識別的一種生物識別技術。利用攝像頭採集人面部影象或者是影片,透過提取其中的關於面部影象特徵,與資料庫中儲存的特徵模板進行搜尋匹配,當相似度超過設定閾值就會輸出匹配成功,反之輸出匹配失敗結果。
因此目前的面部識別技術原理上都是大同小異,萬變不離其宗的,只不過是在面部資訊資料採集方案有所不一樣,有的利用演算法模擬出面部特徵點三維關係,有的是直接採集面部深度資料。因此按照採集面部資料異同,3D深度相機大概有有以下三種主流方案:雙目視覺、結構光和TOF飛行時間法。
雙目視覺 Stereo
其實這個很好理解,它是目前機器視覺的重要形式,仿照人類眼睛的構造,利用兩個鏡頭的視覺差模擬人眼能夠獲取到的3D深度資料,兩幅不同視覺的影象,計算其中對應點之間的位置偏差,即可獲得物體的三維幾何資訊。
一般方案會採用被動雙目,優點在於不需要額外的光源,利用一切自然光就能使用,缺點就是到了暗處或者夜間,被動雙目就抓瞎了,因此後續研究人員開發出利用紅外光作為照明光源的主動雙目,這樣晚上也能使用。
小米8,商湯科技,紅外人臉識別(基於2D,非3D)
由於雙目視覺僅僅是依靠影象進行特徵匹配,使用普通攝像頭即可,硬體附加裝置要求非常低,成本也很低,雖然計算量比較大,但是對於目前SoC都能夠勝任,也是三種方案中計算量最少的。而且只要能夠保證光源強度,室內外都能夠使用,適用性非常好。
雙目視覺的缺點也很明顯,對於環境光照非常敏感,光線差異會導致影象偏差很大,導致匹配失敗或者是精度過低;識別場景中有複雜背景可能會導致面部識別失敗;而且後續有安全專家表示,可以利用較為精細的3D列印面部模具欺詐透過識別,安全性依然是個大問題。
目前利用雙目視覺方案獲取3D深度資訊的代表有,Leap Motion、大疆無人機。
接下來要介紹的結構光以及TOF兩個方案,就不得不提到微軟大佬,因為其XBOX上動作採集裝置Kinect正正是採用了這兩項技術的代表,但顯然是“起了個大早,趕了個晚集”。第一版Kinect所謂的深度感測器,其實就是採用結構光方案,對光進行編碼,投射到人身上,讀取投射的紅外線形狀,透過計算變形量來取得深度資訊。技術提供方是以色列的PrimeSense公司,然後在2013年就被蘋果公司買下來,做成Face ID。
投射紅外線pattern的IR Projector(左)和IR Camera(右)
結構光 Structured Light
透過近紅外鐳射器發射具有一定結構特徵的光線後,經過人臉反射,形變之後的圖案被紅外影象感測器所接收。由於原始光線在被攝物體的不同深度區域被反射,採集後生成的影象相對原始光線結構發生變化,透過運算單元將這種結構的變化換算成深度資訊,然後兩顆影象感測器的資訊再彙總至專用的影象處理晶片,利用三角原理計算從而得到拍攝物體的三維結構。
而根據編碼圖案不同一般有條紋結構光、編碼結構光、散斑結構光三種不同方案。下面我們會以具體手機所採用的方案進行介紹。
蘋果iPhone X(Prime Sense,散斑結構光)
因為整體技術解決方案較為成熟,移動端的3D結構光技術主要以蘋果的3D散斑結構光為主。同時蘋果較早收購了提供該技術公司以色列公司Primesense,相關的專利技術掌握在其手中。
根據Prime Sense在專利中的描述,紅外鐳射生成器射出鐳射束,透過光學衍射元件DOE(Diffractive Optical Elements)進行衍射(這個在iPhone X就是點陣投影器),進而得到所需的散斑圖案。這些散斑具有高度的隨機性,而且會隨著距離的不同而變換圖案。只要在空間中打上這樣的結構光,相當於空間已經被細分,每個區域都做了標記,只要你的人臉進入了這個空間,利用紅外鏡頭把空間的散斑圖案記錄下來,與之前光源基準標定進行對比計算,就能獲取到當前物體與手機的具體距離,從而知道深度資訊。
點陣投影器,圖片來自上海微技術工業研究院
3D結構光最大優勢在低光照下也可以使用,而且包含深度資訊的影象解析度可以做到很高,安全性可以透過提高光點數目,建立更加精細的毫米級3D面部模型達成,在可靠性上非常有優勢,比如iPhone X可以打出3萬點散斑。
但也正是資料量大幅度增加,需要配合高效能處理器進行編解碼,因此蘋果專門對iPhone X的A11處理器進行過AI訓練處理,專門用於加速面部資訊處理。此外用過iPhone X的人都知道另一個缺點,就是距離不能太近(基線大),需要有一段距離才能正確裝置,這個與衍射光點的結構模組有關;距離太遠的話,精度也會隨之變差;在室外遇到強光也可能影響到紅外攝像頭採集散斑效果,導致匹配解鎖失敗。
OPPO Find X(奧比中光,散斑結構光)
OPPO Find X同樣是採用了結構光方案,他們自家稱之為O-Face,技術供應方是來自中國的奧比中光,是大陸目前唯一量產出手機可用的3D結構光模組廠商,前不久才剛剛完成了螞蟻金服領投的超兩億美金的D輪融資,研發實力相當強勁。
儘管OPPO Find X只能投射出1.5萬個散斑,只有iPhone X方案的一半,但依靠外掛Secure Enclave安全區域晶片,率先完成了Android手機的Face ID移動支付功能,這個非常重要。“Face ID”如果不能用於移動支付,僅僅是作為解鎖手機的功能,這個就讓人很納悶,大幾千的手機都不支援生物識別技術支付,還不如指紋識別,開倒車?
其實這個事情或許需要兩面看,Face ID類在移動支付是新嘗試,銀行、移動支付機構需要時間驗證其安全性,涉及到錢銀上都是萬分小心的,只有當技術、安全達到要求,廠商、銀行、第三方軟體開發商才會敢採用。
小米8探索版(Mantis Vision,編碼結構光)
小米8探索版是在小米8紅外人臉識別方案的基礎上,加入了點陣投影器以獲取人臉3D深度資訊。釋出會上說可以打出3.3萬個光點,一開始以為和蘋果iPhone X一樣,但其實他們光點有著本質不同,小米8探索版採用的是以色列公司Mantis Vision的方案,他們是編碼結構光的代表,與Prime Sense散斑結構光不同,他們的打出來的光點是經過編碼的光斑(不需要DOE衍射結構),就像下圖所示那樣,這樣做的好處在於能夠減少3D資訊計算量,降低結構光演算法功耗。也就是說,不用像蘋果那樣,專門訓練過一個神經網路來處理這部分資料,計算難度大大下降。
不過目前你會發現小米8探索版似乎還不支援移動支付,這可能要歸咎於Android系統上混亂的生物認證API,大家各造各的,統一不起來,Google已經意識到這個問題,已經在Android P中新增專門用於生物識別技術的統一API——BiometricPrompt API,打造更加完善的生態系統;其次Android手機中可能需要額外增加用於儲存巨量面部資料的Secure Enclave安全區域晶片,因為資料的比對要在SE內部完成,否則存在資料洩露風險,目前指紋方案是在TE模組上實現,兩者不同,蘋果更是直接在A11晶片上整合SE模組,可靠性更高。但不排除小米8探索版是沒有完工,適配工作還在繼續,別忘了探索版可是還有屏下指紋識別哦,這也是可以充當移動支付的手段,而那個“Face ID”只能用於解鎖手機啦。
從市面上三家手機廠商推出的3D結構光方案,可以看出Face ID已經成為未來手機生物識別主流技術方案。據相關機構統計,3D成像和感測器件市場的複合年增長率為37.7%,2022年將達到90億美元。但是由於核心技術被全球少數公司壟斷,除了蘋果收購的Primesense外,還有Intel、MantisVision,而國內能夠量產的只有奧比中光一家。
同時由於結構光需要投射固定/可程式設計的光點,因此需要特殊的DOE衍射結構器件,這個也是目前業界量產難題,不僅做得供應商少,而且有能力做好的無非就意法半導體、德州儀器、英飛凌這幾家。產能極少,滿足不了手機龐大市場,只能是少部分高階手機採用,同時成本上依然是非常高昂。
猜猜這是誰家的方案?很厲害的哦
光飛行時間法 Time of Fight
可能是第一版Kinect被消費者詬病太多,結構光技術存在有效深度資訊少、baseline(基線)大、工作距離短、量產難度大等挑戰。微軟很快就放棄,轉投TOF陣營,2014年釋出的第二代Kinect就是採用TOF(Time of Flight)方案來獲取深度資訊影象。
Color Camera旁邊是紅外線Camera(左)和投射脈衝變調紅外線的Porjector(右)
顧名思義,飛行時間法就是計算感測器發出經調製的近紅外光,遇物體後反射,感測器透過計算光線發射和反射時間差或相位差,來換算被拍攝景物的距離,以產生深度資訊。
TOF並非基於特徵匹配,結構光和雙目視覺來說受環境影響最小的技術,這樣在測試距離變遠時,精度也不會下降很快,而且響應速度快,如果不是計算相位差方案,計算量不算太多。
Vivo TOF 3D超感應技術
而中國手機廠商成為了新技術探索的先行者,vivo前不久釋出了“TOF 3D超感應技術”,這個就是TOF方案的應用在手機上的體現。
據vivo介紹,TOF具備有效深度資訊高、工作距離遠、結構佈局靈活、應用場景豐富等優勢。透過發射近紅外光,感測器計算紅外光與目標的觸達返回時間差,從而實現立體視覺。相比結構光技術,vivo TOF 3D超感應的有效深度資訊點高達30萬,為結構光技術的10倍。同時將有效工作距離提升到3米,是結構光的3倍。
Vivo還提到了ToF 3D成像技術還可以做到屏下,這樣就可以拋棄大家不待見的劉海屏,讓手機真正進入全面屏時代。當然,現在一時半會還做不到,這個要和螢幕供應商密切合作才能夠量產。
TOF又有優點,固然也有缺陷的地方,TOF對於裝置要求非常高,特別是時間測量模組,畢竟光速一秒299792458米,要區分你面部幾毫米細節,就需要對測量模組精度提出了全新要求。如果採用了相位差方式,又需要多次取樣進行積分,造成運算量巨大,消耗資源多。
深度相機的另類應用
既然能夠獲取人面部的深度資訊,那是不是可以像好萊塢特效電影那樣,在人物模型上套上別的面板呢?是的,完全可以,因此我們才會看到像Animoji、AR Emoji、米萌這型別可愛的動話表情。
更進一步的話,可以建立起人體模型,什麼3D試衣、體感遊戲、AI修圖等等都是非常有潛力的應用哦。
現在幾百塊的手機都能有指紋識別功能,而且速度還賊快,和高階機型根本做不出區別來。因此手機廠商都煞費苦心地研究什麼屏下指紋識別、面部識別技術,而其中3D結構光、TOF已經逐漸成熟,並且可以小型化,集成於手機上,未來我們肯定可以看到更多采用這類方案的面部生物識別的手機。
附三種方案對比,由方正證券研究所提供
2017年9月,蘋果釋出了十年紀念之作iPhone X手機,以“劉海屏”設計、Face ID人面識別技術再一次改變世界手機設計標杆,由於異形劉海屏的仿製難度不大,各家手機廠商很快就完成相關產品推出,但對於蘋果擁有核心技術、數年時間研發的Face ID就一籌莫展,Android陣營直到9個月後的才陸陸續續拿出相關技術的期貨手機(小米8探索版、OPPO Find X),那麼他們之間到底是不是一樣的嗎?有何異同?
面部識別技術,是基於人的臉部特徵資訊進行身份識別的一種生物識別技術。利用攝像頭採集人面部影象或者是影片,透過提取其中的關於面部影象特徵,與資料庫中儲存的特徵模板進行搜尋匹配,當相似度超過設定閾值就會輸出匹配成功,反之輸出匹配失敗結果。
因此目前的面部識別技術原理上都是大同小異,萬變不離其宗的,只不過是在面部資訊資料採集方案有所不一樣,有的利用演算法模擬出面部特徵點三維關係,有的是直接採集面部深度資料。因此按照採集面部資料異同,3D深度相機大概有有以下三種主流方案:雙目視覺、結構光和TOF飛行時間法。
雙目視覺 Stereo
其實這個很好理解,它是目前機器視覺的重要形式,仿照人類眼睛的構造,利用兩個鏡頭的視覺差模擬人眼能夠獲取到的3D深度資料,兩幅不同視覺的影象,計算其中對應點之間的位置偏差,即可獲得物體的三維幾何資訊。
一般方案會採用被動雙目,優點在於不需要額外的光源,利用一切自然光就能使用,缺點就是到了暗處或者夜間,被動雙目就抓瞎了,因此後續研究人員開發出利用紅外光作為照明光源的主動雙目,這樣晚上也能使用。
小米8,商湯科技,紅外人臉識別(基於2D,非3D)
由於雙目視覺僅僅是依靠影象進行特徵匹配,使用普通攝像頭即可,硬體附加裝置要求非常低,成本也很低,雖然計算量比較大,但是對於目前SoC都能夠勝任,也是三種方案中計算量最少的。而且只要能夠保證光源強度,室內外都能夠使用,適用性非常好。
雙目視覺的缺點也很明顯,對於環境光照非常敏感,光線差異會導致影象偏差很大,導致匹配失敗或者是精度過低;識別場景中有複雜背景可能會導致面部識別失敗;而且後續有安全專家表示,可以利用較為精細的3D列印面部模具欺詐透過識別,安全性依然是個大問題。
目前利用雙目視覺方案獲取3D深度資訊的代表有,Leap Motion、大疆無人機。
接下來要介紹的結構光以及TOF兩個方案,就不得不提到微軟大佬,因為其XBOX上動作採集裝置Kinect正正是採用了這兩項技術的代表,但顯然是“起了個大早,趕了個晚集”。第一版Kinect所謂的深度感測器,其實就是採用結構光方案,對光進行編碼,投射到人身上,讀取投射的紅外線形狀,透過計算變形量來取得深度資訊。技術提供方是以色列的PrimeSense公司,然後在2013年就被蘋果公司買下來,做成Face ID。
投射紅外線pattern的IR Projector(左)和IR Camera(右)
結構光 Structured Light
透過近紅外鐳射器發射具有一定結構特徵的光線後,經過人臉反射,形變之後的圖案被紅外影象感測器所接收。由於原始光線在被攝物體的不同深度區域被反射,採集後生成的影象相對原始光線結構發生變化,透過運算單元將這種結構的變化換算成深度資訊,然後兩顆影象感測器的資訊再彙總至專用的影象處理晶片,利用三角原理計算從而得到拍攝物體的三維結構。
而根據編碼圖案不同一般有條紋結構光、編碼結構光、散斑結構光三種不同方案。下面我們會以具體手機所採用的方案進行介紹。
蘋果iPhone X(Prime Sense,散斑結構光)
因為整體技術解決方案較為成熟,移動端的3D結構光技術主要以蘋果的3D散斑結構光為主。同時蘋果較早收購了提供該技術公司以色列公司Primesense,相關的專利技術掌握在其手中。
根據Prime Sense在專利中的描述,紅外鐳射生成器射出鐳射束,透過光學衍射元件DOE(Diffractive Optical Elements)進行衍射(這個在iPhone X就是點陣投影器),進而得到所需的散斑圖案。這些散斑具有高度的隨機性,而且會隨著距離的不同而變換圖案。只要在空間中打上這樣的結構光,相當於空間已經被細分,每個區域都做了標記,只要你的人臉進入了這個空間,利用紅外鏡頭把空間的散斑圖案記錄下來,與之前光源基準標定進行對比計算,就能獲取到當前物體與手機的具體距離,從而知道深度資訊。
點陣投影器,圖片來自上海微技術工業研究院
3D結構光最大優勢在低光照下也可以使用,而且包含深度資訊的影象解析度可以做到很高,安全性可以透過提高光點數目,建立更加精細的毫米級3D面部模型達成,在可靠性上非常有優勢,比如iPhone X可以打出3萬點散斑。
但也正是資料量大幅度增加,需要配合高效能處理器進行編解碼,因此蘋果專門對iPhone X的A11處理器進行過AI訓練處理,專門用於加速面部資訊處理。此外用過iPhone X的人都知道另一個缺點,就是距離不能太近(基線大),需要有一段距離才能正確裝置,這個與衍射光點的結構模組有關;距離太遠的話,精度也會隨之變差;在室外遇到強光也可能影響到紅外攝像頭採集散斑效果,導致匹配解鎖失敗。
OPPO Find X(奧比中光,散斑結構光)
OPPO Find X同樣是採用了結構光方案,他們自家稱之為O-Face,技術供應方是來自中國的奧比中光,是大陸目前唯一量產出手機可用的3D結構光模組廠商,前不久才剛剛完成了螞蟻金服領投的超兩億美金的D輪融資,研發實力相當強勁。
儘管OPPO Find X只能投射出1.5萬個散斑,只有iPhone X方案的一半,但依靠外掛Secure Enclave安全區域晶片,率先完成了Android手機的Face ID移動支付功能,這個非常重要。“Face ID”如果不能用於移動支付,僅僅是作為解鎖手機的功能,這個就讓人很納悶,大幾千的手機都不支援生物識別技術支付,還不如指紋識別,開倒車?
其實這個事情或許需要兩面看,Face ID類在移動支付是新嘗試,銀行、移動支付機構需要時間驗證其安全性,涉及到錢銀上都是萬分小心的,只有當技術、安全達到要求,廠商、銀行、第三方軟體開發商才會敢採用。
小米8探索版(Mantis Vision,編碼結構光)
小米8探索版是在小米8紅外人臉識別方案的基礎上,加入了點陣投影器以獲取人臉3D深度資訊。釋出會上說可以打出3.3萬個光點,一開始以為和蘋果iPhone X一樣,但其實他們光點有著本質不同,小米8探索版採用的是以色列公司Mantis Vision的方案,他們是編碼結構光的代表,與Prime Sense散斑結構光不同,他們的打出來的光點是經過編碼的光斑(不需要DOE衍射結構),就像下圖所示那樣,這樣做的好處在於能夠減少3D資訊計算量,降低結構光演算法功耗。也就是說,不用像蘋果那樣,專門訓練過一個神經網路來處理這部分資料,計算難度大大下降。
不過目前你會發現小米8探索版似乎還不支援移動支付,這可能要歸咎於Android系統上混亂的生物認證API,大家各造各的,統一不起來,Google已經意識到這個問題,已經在Android P中新增專門用於生物識別技術的統一API——BiometricPrompt API,打造更加完善的生態系統;其次Android手機中可能需要額外增加用於儲存巨量面部資料的Secure Enclave安全區域晶片,因為資料的比對要在SE內部完成,否則存在資料洩露風險,目前指紋方案是在TE模組上實現,兩者不同,蘋果更是直接在A11晶片上整合SE模組,可靠性更高。但不排除小米8探索版是沒有完工,適配工作還在繼續,別忘了探索版可是還有屏下指紋識別哦,這也是可以充當移動支付的手段,而那個“Face ID”只能用於解鎖手機啦。
從市面上三家手機廠商推出的3D結構光方案,可以看出Face ID已經成為未來手機生物識別主流技術方案。據相關機構統計,3D成像和感測器件市場的複合年增長率為37.7%,2022年將達到90億美元。但是由於核心技術被全球少數公司壟斷,除了蘋果收購的Primesense外,還有Intel、MantisVision,而國內能夠量產的只有奧比中光一家。
同時由於結構光需要投射固定/可程式設計的光點,因此需要特殊的DOE衍射結構器件,這個也是目前業界量產難題,不僅做得供應商少,而且有能力做好的無非就意法半導體、德州儀器、英飛凌這幾家。產能極少,滿足不了手機龐大市場,只能是少部分高階手機採用,同時成本上依然是非常高昂。
猜猜這是誰家的方案?很厲害的哦
光飛行時間法 Time of Fight
可能是第一版Kinect被消費者詬病太多,結構光技術存在有效深度資訊少、baseline(基線)大、工作距離短、量產難度大等挑戰。微軟很快就放棄,轉投TOF陣營,2014年釋出的第二代Kinect就是採用TOF(Time of Flight)方案來獲取深度資訊影象。
Color Camera旁邊是紅外線Camera(左)和投射脈衝變調紅外線的Porjector(右)
顧名思義,飛行時間法就是計算感測器發出經調製的近紅外光,遇物體後反射,感測器透過計算光線發射和反射時間差或相位差,來換算被拍攝景物的距離,以產生深度資訊。
TOF並非基於特徵匹配,結構光和雙目視覺來說受環境影響最小的技術,這樣在測試距離變遠時,精度也不會下降很快,而且響應速度快,如果不是計算相位差方案,計算量不算太多。
Vivo TOF 3D超感應技術
而中國手機廠商成為了新技術探索的先行者,vivo前不久釋出了“TOF 3D超感應技術”,這個就是TOF方案的應用在手機上的體現。
據vivo介紹,TOF具備有效深度資訊高、工作距離遠、結構佈局靈活、應用場景豐富等優勢。透過發射近紅外光,感測器計算紅外光與目標的觸達返回時間差,從而實現立體視覺。相比結構光技術,vivo TOF 3D超感應的有效深度資訊點高達30萬,為結構光技術的10倍。同時將有效工作距離提升到3米,是結構光的3倍。
Vivo還提到了ToF 3D成像技術還可以做到屏下,這樣就可以拋棄大家不待見的劉海屏,讓手機真正進入全面屏時代。當然,現在一時半會還做不到,這個要和螢幕供應商密切合作才能夠量產。
TOF又有優點,固然也有缺陷的地方,TOF對於裝置要求非常高,特別是時間測量模組,畢竟光速一秒299792458米,要區分你面部幾毫米細節,就需要對測量模組精度提出了全新要求。如果採用了相位差方式,又需要多次取樣進行積分,造成運算量巨大,消耗資源多。
深度相機的另類應用
既然能夠獲取人面部的深度資訊,那是不是可以像好萊塢特效電影那樣,在人物模型上套上別的面板呢?是的,完全可以,因此我們才會看到像Animoji、AR Emoji、米萌這型別可愛的動話表情。
更進一步的話,可以建立起人體模型,什麼3D試衣、體感遊戲、AI修圖等等都是非常有潛力的應用哦。
現在幾百塊的手機都能有指紋識別功能,而且速度還賊快,和高階機型根本做不出區別來。因此手機廠商都煞費苦心地研究什麼屏下指紋識別、面部識別技術,而其中3D結構光、TOF已經逐漸成熟,並且可以小型化,集成於手機上,未來我們肯定可以看到更多采用這類方案的面部生物識別的手機。
附三種方案對比,由方正證券研究所提供