超V對話 |諾亦騰CTO戴若犂:C端手勢識別短期內難以顛覆手柄,B端細分市場將成新沃土
近幾年,XR產業的發展迎來又一波熱潮。隨著Cardboard機型退出歷史舞臺,我們看到在XR消費級市場以雙6DoF一體機Quest、Pico Neo 2和極致輕薄的超短焦頭顯3Glasses X1、華為VR Glass等為代表的新機型開始獨佔鰲頭。
與此同時,PC VR頭顯開始了更具挑戰性的嘗試——一些廠商將追蹤範疇從頭和手擴充套件到腰和腳,也有廠商將手勢識別、面部捕捉以及眼球追蹤等技術視為下一代XR機型的發展目標。從2012年到現在,XR產業已經走過了8年的時間。這段時間裡,XR互動方式究竟是如何一步步變化的?未來,XR互動又將呈現怎樣的新形態?
本期訪談陀螺君帶大家走進一間漂浮在宇宙之中的空間站採訪室內部。在這裡我們將一同探討XR互動的發展歷程、現階段技術瓶頸及未來形態。
以下是本期訪談全文:
8K還是更高,XR頭顯解析度提升是筆經濟賬
戴若犁:達摩克利斯之劍是68年左右設計出來的,確實是到現在為止這些設計沒有本質上的特別大的變化。都還是在眼前放一塊螢幕,然後這塊屏會跟隨著頭部運動而運動,給人一種沉浸式的視覺觀感。
當然,現在在很多地方,比如軍事模擬、模擬器這樣的環境當中,我們見過類似的系統是以球幕、環幕、CAVE的形式,提供一個沉浸式的視覺。頭戴式顯示這種設計是擺一塊屏並且這塊螢幕能夠跟隨著你的頭動,同時它能夠儘可能的覆蓋你的視野,可覆蓋的視野的大小就是所謂的FOV,並且螢幕上顯示的內容是跟頭部的運動相匹配的,這件事情從經濟方面或者是在滿足人的最主要觀感上來說是合理的。
這種合理性是一個物理層面的合理性,不管是從資訊獲取、視覺的重要性上來說,還是從頭戴式、隨動的覆蓋視野以及其經濟效益上來說,都是非常合理的。這兩個合理性導致其實從1968年到2020年,VR裝置在外觀上沒有出現大變化,只是它的效能發生了巨大變化。
戴若犁:就這個問題其實我覺得可能大家的理解還是有一定的偏差。首先,解析度在整個沉浸感體驗這件事情裡,它不是一個完整的描述,也就是說我們如果只關注解析度這一件事情的話,其實並不能特別好的解決沉浸度、沉浸式體驗,或者說把假的做得跟真的一樣,這件事情不光是用分配解析度這一個引數去描述的。
但如果只聊解析度,我們可以對比一下行業中如今主流的手機,不管是大一點螢幕還是小一點螢幕的基本上都是2k~3k,雖然有一些比如像索尼這樣的廠商比較激進,他會去做一個4k解析度的手機螢幕,但是基本上主流的就是2~3k。
手機行業最終解析度收斂到了2k、3k這個級別,它核心的原因是因為當我們手持手機處於一個舒適的觀看距離的時候,人眼的解析度是有限的,就是在某一個距離、某一個解析度達到了之後,人眼就無法再分辨更小的畫素了。也就是說不管是從價效比還是從實際的需求,我們並沒有更高解析度的需求了,或者說再繼續大幅度提升解析度,人眼的體驗並不能同步大幅度提升。繼續提高解析度這件事情,對於買家付的錢來說,或者是對於整機付出的功耗來說,都已經對不起廠家投入繼續的科研和更大的成本了。
那麼手機如果是在2k多達到了收斂的比較平衡的狀態,我們可以用一個粗略的方式去估算一下VR領域的這個引數會收斂到哪裡。有人說是8k,但是其實估算下來其實8k都還不夠。我們來考慮一個VR環境中解析度的時候,一般不會用手機裡的PPI(point per inch),而是會用PPD(point per degree),也就是說我們看它的FOV裡我們大概用了多少畫素點去覆蓋以角度為衡量的視域。
當我們手持手機在面前觀看時,大概處於30釐米左右的距離時,這時會處於一個舒適的狀態。這是一個沒有嚴重近視或視力沒有嚴重老花的人,大概的手持距離。如果我們拿的是一個常規螢幕尺寸的手機,大概它對我們單眼覆蓋的FOV估計為10多度不到20度的樣子,這裡姑且算是它覆蓋了20度,那麼就是遮擋了我們20%的視野。
那麼人們單目的FOV大概是多少呢?我做過嘗試,把我的右眼朝最左邊轉動看到的邊緣和朝最右邊轉動看到的邊緣這個角度在160度左右。剛才我們說將手機手持在面前,它覆蓋了20度。那麼在VR環境當中,我單目能夠看到的極限的FOV大概是160度,那麼其實手機覆蓋的面積就只有實際需求FOV的1/8,這是在一個維度。如果是在面積方面,它就是一個平方的關係,即1/64。所以我們用這塊2K解析度手機能覆蓋的面積只有實際需要覆蓋視域面積的1/64,在這裡姑且算成1/60吧。那麼當這塊屏縮小了很多很多移到我們的眼前的這塊小螢幕上,假設人眼在不同距離上的角分辨能力基本一致,那麼我們仍然需要一塊解析度超級高,達到了60*2K解析度的螢幕才能讓我們和看著30釐米遠的2K手機一樣,看不到畫素點,且覆蓋了完整的160°的FOV。當然,,眼球在視域邊緣的角解析度是相對較低的,這裡60倍的估算應該是偏高了,但是我們基本可以斷定8K肯定不是盡頭。
從上邊這個粗略的估計來看,我們雖然還有很長的路才能夠達到完全看不到畫素點的那一天,但盡頭肯定是有的。當它發展到人眼無法分辨畫素顆粒的時候,再繼續提高解析度就沒有意義了。而且這個發展很有可能它會撞上成本和製程的牆。但它不像手機,很有可能到某一個時間點我們的技術沒有辦法提升了,我們會提前撞上牆。可能在單眼十幾k這樣的一個狀態可能就有點發展不動了,所以到那個時候也就不會再繼續了。
而聽覺方面反而會比視覺要簡單得多。首先,我們人去接受聽覺的感受器,也就是我們的耳朵,或者說我們的耳膜聽小骨聽覺傳導神經這套器官其實比視覺要簡單很多,聽覺感受器數量比較少,自由度也比較少。在聽覺上面,我們聽到的其實是頻率的高低和音量的大小,而且只有兩隻耳朵,所以要滿足聽覺這個事情,它的成本或者是說能夠做的事情相對來說比較低一些、少一些,所以在聽覺方面會比較容易的就能滿足我們的需求,而更多的像你剛才所說的,比如6DoF音源、6DoF的聲音拾取其實跟頭顯關係不大,它跟後臺的計算和內容製作相關。
以前我們也做過類似解決方案,比如說我們面前有一隻蜜蜂,那隻蜜蜂它發出的嗡嗡聲,當面對或側對著它以及距離遠近不同的時候,我們聽到聲音應該是不一樣的。
這個聲音跟頭顯上的 Speaker關係不大,而主要是跟內容裡面的計算單元關係較大,所以說它對演算法的要求會高於對裝置的要求,所以在繼續的去發展視覺感受的時候,其實很多是跟我們這兩塊螢幕相關,但繼續發展聽覺的時候,主要跟後面的演算法和計算能力相關,它跟頭顯上的 Speaker關係就不是特別的大了,或者是說我們很快就可以有足夠好的聲音裝置來達到極限。但是我們會需要比較長的時間——而且可能長到某一個時間點就撞牆了,沒法發展了——才能滿足我們視覺的極限。
戴若犁:對,在這方面對拾音的要求比較高,對播放的要求其實跟原來是一樣的。而且因為需要環境噪聲進來,這其實跟傳統的可穿戴裝置,或者是說手機、耳機這樣裝置是相左的。目前像耳機這種可穿戴裝置,很多都是要濾除環境噪聲,因為首先要保持最重要的資訊,比如咱倆說話的聲音。 Quest2對環境音的濾除其實做的還蠻不錯的。我身邊同事電腦的風扇聲音其實挺大的,我估計你聽不見。然後剛才我手機也響了一次,估計你聽到的噪聲也比較小,所以說就是它現在的工作方式還不是要高保真還原一切東西,它是要把最重要的資訊先傳過去。
所以即便是你剛才說的,不管是HTC做線上的會議也好,還是像我們今天VS work,他們做的這一個現場訪談這樣的系統,其實目前可能還顧不到要把環境聲也收進來,提高沉浸度。首先要把最主要的矛盾解決了,才能再談之後的事情。
所以這兩件事其實是相左的,我也覺得有些東西跟軟體也不太相關,因為比如說前期硬體這一層的環境噪聲就已經被濾掉了,VS work它再想把環境聲收進來,也收不進來。因為給它的聲音已經沒有這些噪聲了。我覺得可能現在去談在聽覺方面進一步的提高保真程度,或者是說沉浸程度,可能還為時尚早。大家先把視覺的問題解決了,聽覺方面就先把最主要的資訊傳遞解決了就好了,因為視覺能給你的資訊數量級地壓倒聽覺給你的資訊量。
所以我個人認為凡事有先後、抓重點,行業最終拿錢投票,會先解決視覺的問題,開會這個應用場景裡的聽覺問題先不談保真度,就保證先把最重要的資訊傳遞過去再說。
從解決“有沒有”到選擇“是否要有”,C端XR互動技術將不會再有革命性變化
戴若犁:回望XR硬體互動技術的發展,其實是有規律可循的,而且非常嚴格的符合了物理規律和經濟規律。
發展分為幾個階段,首先第一個階段是解決有沒有的問題。在解決“有沒有”的問題的時候,它其實是技術所限。比如說最早期的像DK1級別或者說Gear VR、Cardboard這樣的3DoF的頭顯,其實那個時候大家都知道,頭部是需要6DoF的,是需要6個自由度的,但是由於技術所限,只能做到3DoF,所以說在那個時候其實大家幾乎沒有任何疑慮,或者說在業界中沒有任何相左的意見,都想著將技術趕緊往前推進,等推進到頭部能夠自由空間移動的時候,就可以不用坐在這兒只能小幅度動頭,所以那個時候各廠商其實是純技術的發展——只要技術能解決這個問題就馬上用上。比如說到了DK2的年代,馬上就用了。把頭最主要tracking的問題或人機互動的問題解決了之後,接下來仍然是一個沒有什麼疑慮,也沒有什麼相左的意見的發展階段——即控制器同樣不應該只是停留在3DoF階段。
記得最早的一代控制器,甚至於都不是攥在手上的,像Gear VR是在頭部旁邊的,在頭部的側面這個地方有觸控功能,點按表示確認。後來慢慢的將控制器抓到手上了,是一個3DoF的手柄,上面有幾個按鈕;而後它的6自由度發展也是沒有任何疑慮的。一直到後來在DK2的年代,頭已經有了6DoF,手柄還是3DoF。Oculus對於互動技術的推進。到了CV1年代3DoF的手柄向著手裡的Touch Controller進化,這在相較同期甚至於更早一點,有了HTC Vive,第一代HTC Vive史無前例的一點就是用LightHouse這樣的系統推出了特別可靠精確的6DoF的頭加兩個6DoF手柄,所以才有了朝今天這個方向發展的源頭。縱觀整個業界,前期一直處在技術趕不上需求的階段,所以這個是技術改革的需求。那時候的廠商要求是隻要是技術跟上了,就會盡快用上。
到了第二個階段,進入了思考到底是否需要“手”這件事情?咱們現在用的Quest頭顯,其實把控制器放在桌上,雙手往臉前一端是能看到手的,這是可以用手進行基礎互動的。
也有像Leap Motion以及其他的一些技術供應商包括諾亦騰,我們也有可以匹配HTC Vive和其他頭顯的動作捕捉手套。這個時候你會發現一件很有意思的事情,就是為什麼我們現在用的裝置,比如Quest裝置,它並沒有把裸手的互動或者手形態的互動作為主要的互動模式。它大部分的主流遊戲和工具以及官方系統的操作,其實都是都還是基於控制器的。這件事情很有意思,有可能很多人就想是不是因為手勢識別還不夠好,然後有高延遲有遮擋這樣的一些因素的問題,是不是裸手互動的技術做得還不夠好?其實也未必。
人機互動裡出現手的形式,直接用手來互動帶來的最大好處,在於使用者其實是不太需要學習就可以掌握這種互動方式,也就是說它的學習成本曲線是非常的平,因為我們日常生活當中知道自己的手是怎麼用的,我可以跟人揮手,可以打手勢,有東西來了我會接一下,這裡有本書我要翻看一下,這些互動是不需要學習的。
但是,目前這一代的虛擬現實環境裡並頭沒整合像力反饋、模擬觸覺這樣的功,那麼使用者空手跟虛擬環境進行互動,就變成了一件非常彆扭的事情。從另外一個層面來說,這種互動其實是不符合使用者的基本認知的。裸手互動,看似已經無限貼近使用者認知的互動模式會給予使用者較高的期望值,那麼這個時候比如說咱倆伸手握個手,我並不能真正摸到你的時候,就會覺得這件事情非常彆扭。那如果當我手裡有一個Touch Controller,手裡有一個控制器的時候,這些事情它就會變成用控制器,弄條鐳射出來指點操作一下,而控制本身以及上邊的按鈕、搖桿是有觸感、有反饋的,而且成功率是100%,使用者就不會覺得那麼彆扭。
只能說,在技術成熟度尚未達到的時間點,將裸手互動這類人機互動新方式嵌入作業系統中,很多時候給我們帶來的綜合體驗高度和我們想象的情況是相左的。更多時候在人機互動設計和體驗上退而求其次反而是一個提升。
大家很容易混淆兩個概念,一個叫手部動作捕捉,一個叫手勢控制,絕大部分人都會把這兩個技術混為一談。手部動作捕捉是把人的動作數字化,只說到了數字化這一層、動作捕捉這一層,而下一步從動作捕捉下來的數字化動作裡去識別意圖,識別一些手的各種形態以及賦予一些事件反饋,那個才叫手勢識別,並用手勢識別去做一些控制。
簡單來說,比如我用典型的握拳作為確認或者說像HoloLens那樣,把手虛握上舉擺成一個小花的形狀,晃一晃就能取消,這都是典型的手勢控制。再比如說我現在要翻頁,我用手朝著背後的這個螢幕做一個划動翻頁的動作,讓它識別出來我是要翻頁,這些都是叫做手勢識別,手勢識別最大的問題是有不小的失敗機率,或者說它不能保證你的每次操作都可以得到迴應。但是如果讓你用Touch Controller按一下Home Button,那麼這件事情的成功率是多少?成功率是100%。我讓你摁A鍵、摁B鍵、摁個Menu它的反饋可靠度無限逼近100%,而且我有得到明確的觸覺/物理反饋。所以從操作成功率和反饋這個層面上面來說,手柄或者說一個6自由度的Touch Controller,在樂趣,或者說確定感的方面,要遠勝裸手互動,是使用者需要的。
從這個層面上面來說,我們並不能說接下來繼續發展用裸手的VR的人機互動就一定優於Touch Controller,只能說他在某些層面上面是優於的,比如能看到手的動作很容易學習。但是在互動的樂趣、確定性、成功率等等方面它其實是不如傳統的六自由度手柄的。
因此你會發現即便是連Oculus這樣的企業,已經將一套蠻好用的、確實能work的裸手追蹤和識別以及互動的正規化已經拿出來了,但是依然沒有把它放到主要的互動模式位置上,而是把它放在次一級的互動可選項上了。你也許會不用控制器,使用裸手簡單操作試試看,玩玩看,但是大機率還會再把控制器拿來用(至少我本人就是這樣)。
所以從人機互動的角度上來說,第一個階段是在解決有沒有的問題上,技術趕不上需求。第二個階段其實是技術不知道需要什麼東西,還在試錯,包括現在出現了一些其他更多的“企圖”成為人機互動新正規化的一些技術,比如說眼動追蹤、觸覺反饋,這樣的一些相關功能,它到底能不能引入到虛擬現實當中變成主流的互動手段,我確實是不知道的。
當然,在一些比較特殊的應用場景裡頭,比如說對眼動有具體需求,對於觸覺反饋有非常明確需求的時候,當然它會能夠給我們帶來更多的benefit,但是在我們講主流的,平臺級別的VR互動手段時,我確實是懷疑,目前手裡握的這對六自由度的手柄搞不好已經是目前價效比最高、最合理的解決方案了,會存在、霸佔很多年,就像滑鼠和鍵盤一樣。
戴若犁:是的,因為當你能夠看到自己的手的時候,人的期望值就提高了。
我給你一個手柄,然後告訴你可以用 Laser Pointer,也就是上面這樣的一束鐳射,可以把這個本子撿起來,移到另外一個地方去。你的期待裡沒有能感知到這個本子的重量、慣性這件事情,但是當我給你看得到的一雙手,而且你發現你的手指和虛擬手指可以聯動,而且動的還挺像那麼回事的時候,你的期待就變成我確實要摸到它了。所以人的期待沒有得到管理,這種情況下一旦給到的是沒有能夠提供真正力反饋的互動體驗或者說更好的滿足其他感官需求的時候,這件事情其實就會變得挺麻煩的。人的期待被無限拔高了,因此使用者在有瑕疵的互動體驗中大機率會覺得它不好用,並且操作起來不便。
戴若犁:這件事情其實我們要分應用場景,假如說您剛才描述的這種方案,它面對的是C端應用場景的話,我其實是存疑的。如果是面對商用端B端的一些應用場景的話,也要分是哪一種商用場景,如此的重視身體的感知或者說身體的視覺化,而且能確實給他的應用場景帶來益處,帶來真正的價值才有需求。
退回來說為什麼我不看好消費級別,目前在消費級別上把這樣的一套系統做便宜,其實不是最大的問題,即使是現階段的頭顯+兩個控制器,消費級別的裝置銷量也沒有做的特別好。我們現在可以看到從銷量上面來說雖然逐年上漲,但是銷量跟常規的消費電子產品來比,至少相差100倍,所以大部分內容製作者現在也不太能賺得到錢。其實這也是因為XR裝置目前還沒有辦法在消費端大面積推廣。也就是說,現在即便是隻有一雙手,兩個控制器和一個頭顯,它對於普通人來講已經存在一個比較大的裝置穿戴壓力了,或者說存在一個比較高的複雜度了。其次,經濟上肯定是為使用者帶來了更高成本,但其實購買成本永遠都不會是最大的一個障礙,系統複雜度的成本才常常是一個難以逾越的大障礙。
目前這套系統即便是到了Quest這麼簡單易得的狀態,系統複雜度仍然是一個推廣虛擬現實應用者數量的非常大的門檻。如果在這個前提假設下,再給它增加任何的複雜度,那麼對於整件事情的推廣,就好像是在一個漏了100倍的小眾人群的漏斗裡還要再漏,漏到那些可以繼續增加複雜度,繼續增加成本,繼續願意穿戴,而且還沒有什麼大量的內容支援你這種工作模式的使用者(因為就這種小眾的方案能支援他的內容,大機率就是由他們家自己做的軟體,或者說他的合作伙伴幫他做的一兩個內容)。所以當漏斗漏到我剛才說的第三層的時候,在使用者量方面我認為就可以忽略了,或者是說他們企圖把這一個小使用者量再發展上來,往上再走一層,這個難度會非常的大。再者,人機互動手段通常只能由原廠來定義,由平臺方定義。想要由第三方來定義To C端的人機互動模式難上加難。比如遊戲領域,即便是任天堂作為原廠,也沒有帶出來Ring-Con的這個市場,更不要說靠第三方來定義了。
任天堂以前的Wii手柄確實是帶了一大堆手柄的周邊,但那也僅僅是周邊而已,它不是核心的互動手段,Wii的手柄、平衡板匹配的內容生態仍然是任天堂原廠官方做的東西。
所以,從人機互動手段這個角度上面來講,我非常的不看好把系統複雜繼續在C端推高。但是話說回來在B端的發展我是看好的,因為B端的使用者,他們相對來說不是特別在乎成本,比如說咱們玩VR基本上一體機三四千塊錢投入成本, PC VR 1萬塊錢左右投入成本,但B端基本上在3到5萬塊錢一個使用者,這樣的平均投入成本是沒有問題的,複雜度方面,因為那是他的工作,他可以承受更大的複雜度。學習曲線方面,這是他要用來謀生的手段,他願意付出時間去進行相對比較長時間的學習。所以複雜度、成本、學習曲線都不是問題。到最後沒有內容支援這個事兒都都沒有關係,因為B端的需求都可以定製化內容。
所以剛才您問的我的問題其實分兩說,C端我是特別的不看好,B端可能有機會,但是得他自己去做專案。
短期看好超短焦方案,Quest2這類方案或成為C端頭顯最終形態
戴若犁:我們先說超短焦技術,華為、3Glasses這些廠商都有超短焦的產品,然後也有傳聞說Oculus的下一代產品有可能在超短焦和其他方案當中選一個,他們也在考慮這個問題。
其實超短焦這個事情很難說是技術進步還是妥協,因為你要是從沉浸度和顯示的表象上面來說,超短焦其實有硬性短板的,它的FOV受到限制以及超短焦必須要用菲涅爾鏡片(一圈一圈的非球面鏡),這種非球面鏡在顯示上面有色散現象以及對比度大的場景裡有一些白光,這樣的一些缺陷其實是退步。但是它好處顯而易見,因為它可以讓輕度應用場景裡的人負擔更小,視覺上面給人異樣感更小,所以其實大眾會喜歡。超短焦對於普通的使用者來說一眼看上去親和度比較高,戴上去負擔比較輕,甲方、領導們看著也能理解這個東西,感覺比較先進,這件事情在商業上其實還蠻合理的。
但是從發展上面來說,我認為它是一箇中間狀態,或者說它在目前並沒有更好的解決方案的前提下,稍微犧牲視覺表現(如FOV、菲涅爾鏡片),能夠有更輕便、更小巧、更舒適的體驗。這是在沉浸度或者說極致的技術追求、舒適性、小尺寸美觀度、對人的干擾以及負擔幾個點上找了一個折中點,所以它其實並不是一個極致技術追求,反而是一個輕微犧牲體驗去換取其他方面的優勢的方案,對超短焦這件事情上我只能描述到這一步。
對於目前選擇了超短焦方案的這些廠商,我覺得他們選擇還是挺明智的,因為對於普通民眾,包括一些需要領導做決策,進行批次採購,再比如說綁著大的運營商去賣,從這些事情上面來說,這確實是普通人能看得懂的一個提升。對於非從業者而言,大家會覺得很先進並且更加願意為此付出成本來接受這樣的技術,我覺得就夠了。所以從商業上面來說,它有一定的價值,從長遠上面來說是一箇中間方案,這是我自己個人的觀點。
戴若犁:對,很有可能會是這樣的。因為從結構設計、光學設計上面來說,如果想要保證目前FOV的狀態,以及視覺體驗沉浸度狀態的前提下,把頭顯再做的比Quest2小很多,其實是非常困難的一個事情,至少是Oculus目前的銷售體量是無法支撐更加極致的設計方案的。所以我認為 Quest2的這種形態、尺寸,以及結構和光學解決方案,可能會在比較長的一段時間維持一個穩定的狀態。
長期看好XR互動在B端場景應用,但提升新技術系統魯棒性迫在眉睫
戴若犁:在To B應用方面可選和受到的限制就會小非常的多,因為在應用方面、在成本方面、在系統複雜度方面、在學習曲線方面、在內容定製化和專業應用場景的縮窄這些事情上,它都更加優於C端技術而進一步的前進。
關於To B領域,諾亦騰選擇的幾個方向也是我們認為更加複雜的人機互動形態(包括動作捕捉、超短焦、力反饋、觸覺反饋、眼動追蹤等等)可能有用武之地的領域:
第一個是模擬領域。這是一個很大,歷史非常長的領域。至少30年以前就已經有人用虛擬現實這樣的手段,包括用cave這樣的形態,或者是像上一個世代的頭顯這樣的裝置去進行模擬。而模擬裡又可以比較清晰地分成兩塊比較大的需求,一塊叫做工業模擬,像結構設計、工業設計、有限元分析,像BIM這樣的建築設計類應用等。這個行業裡面確實引入更多的人機互動的手段,引入更復雜的系統去把人數字化,把人引入進來去做比如說像人機功效分析,比如設計一個汽車,它需要把人擺進去看汽車的駕駛艙夠不夠大,可視性可達效能不能滿足需求。用虛擬現實結合互動技術讓使用者在物理環境裡進行肢體動作互動體驗,甚至於一些反饋和半實物模擬都是需要的。
目前,諾亦騰服務過中國商飛做的像C919像ARJ這樣的國產大飛機的分析;也服務過中國的深海科考,參與完成了中國奮鬥者號,深海勇士號裡面跟模擬相關的很多工作。這個領域我們在做,也是因為我們認為有利於B端的虛擬現實人機互動這一塊的發展,可以用到更多的、更先進的、更復雜的、成本更高的一些互動手段。
第二個是多人實訓,也是目前我們在做的。比如說應急、消防、軍事訓練方面的一些模擬,在這樣的環境裡,它會大量地牽涉到多人的人機協同、小組編隊、紅藍對抗、紅紅對抗,它牽涉到很多人在幾百上千平米這樣的大空間。同時可能牽涉到幾十人的數字化。人的動作要引入進去,包括我們之間的互動協同,運用了實體道具的一些演練。在這樣的環境裡,我們把它跟C端比,確實可以引入更多更復雜的系統,也有利於推動技術的進步。所以關於“在應用領域對這樣的一些互動技術是否更有需求”的問題,結論是顯而易見的肯定的,而且確實是有成單、落地的專案應用案例,這是讓我們覺得挺欣慰的一件事情。
戴若犁:有的,其實這些技術點都已經存在了,或者說如果只是將這些技術點、demo單拿出來簡單用一用,其實都挺成熟了。
但是我們碰到複雜的工業模擬環境、多人實訓環境,在那種複雜系統下,一下有十幾套或者說幾十套裝置要同時執行,並且要滿足幾十個人同時協作工作的需求,複雜度一下就提升了。
單說頭顯,假設有幾十人要在VR環境中面對面開會,它的資料的最佳化、壓縮、同步,我們互相說話時,聲音不會掩蓋其他人的聲音,或是說能夠保證我們不中斷,其實就是非常複雜的。其實可能在座的觀眾不知道,就咱倆這個對話,都還是要花挺長時間去磨合的。要把我們倆擺在合適的位置,要把我們形象調整到一個合理的狀態,提前要給我拍張照片,然後生成我的一個虛擬人物形態,要保證兩地網路的質量,保證咱倆都不要掉線,咱們兩個人這個複雜度就已經蠻高的了。
在系統工程裡頭複雜度或者說失敗率這種東西它不是做加法,它是做乘法的。比如說我有10個人,我們每個人的失敗率是1%,但是0.99的10次方是多少呢?拿計算器算一下是0.9,這個失敗率就很高了。這意味著我們10個人裡邊大機率會有一個人掉線,或者有一個人出現系統的故障而導致整個業務的崩塌,所以在To B領域裡頭,我目前認為最需要做的事情是解決系統工程和複雜度這件事情,保證多人環境下面的魯棒性,可以說是系統穩定壓倒一切。
而技術的單點的發展,市面上有的這些技術,剛才講到的一些先進的技術,比如說三維掃描、聲音同步、 VOIP、動作捕捉、數學反饋、半實物模擬這些點都已經足夠好,並不是它們趕不上應用的需求,而是系統的複雜度,複雜系統的魯棒性問題急需解決。到目前為止,我並沒有看到市面上有特別好的,或者說比我們的好特別多的多人工業仿、多人實訓方案,因為解決複雜度,解決系統魯棒性這件事情非常的難。
戴若犁:首先第一個是要降低對方的需求,就像我剛才說的,你把一雙手放在人的眼前,他的需求就被提高了,他就想摸東西了。同樣的,當你把一個單體的模擬的工人放在一輛車裡頭給甲方看的時候,他的需求一下就被提高了,他會希望我能不能在全世界,比如說大眾汽車在中國、德國、美國都有office,我能不能多個office當中的30個人同時可以來評審這個事情,而且在30個人當中可能有10個人可以真的坐到虛擬的車裡頭去感覺一下我設計的方案可視性和可達性來進行分析,他一定會提這樣的需求的。在這個時候就需要我們做技術、產品的人能夠知道技術的邊界在哪裡,要控制他的需求,所以控制需求其實反而變成了第一要務。
第二個就是在選擇技術手段的時候,只能選擇真正在單體使用的時候能達到接近100%可用性的技術,如果在單體demo使用的時候還要花很長時間除錯,或者是說它只有95%的成功率,其實在一個複雜的序列系統裡它仍然是完全不可用的。所以儘量選擇成熟的100%成功率的技術方案提供給客戶,這也是重要的一環,而不是它想要啥你就給他啥,他的預期會高到你根本沒法滿足。我們自己在選擇技術的時候,確實還是隻能選擇相對就在還沒有被To C端用起來的這些先進技術裡頭,也要選相對成熟的技術才能用。太早期的技術確實只能用來做科研。
成熟技術的使用、降低使用者期待值是對行業負責的做法
戴若犁:那沒有,我其實覺得因為有一些技術的準備,或者說它的匯入是前置的,比如說咱兩個虛擬形象的建立,首先它是一個一次性的工作,並且它是一個前置的工作,我們可以先準備好了,然後之後可以很長時間用咱倆現在的形象去做這個事情,所以這種技術的匯入其實蠻好的,因為它不會持續的給我們的系統增加複雜度,帶來不可靠的因素。
還有一些技術雖然會持續的參與到系統當中來,但是他失敗的懲罰非常輕。比如說你剛才說的面部識別和唇語識別。比如說咱倆現在嘴唇其實在動,它應該用的是一種類似於像Lip Sync這樣的一種技術,透過音訊去嘗試還原了咱倆的嘴唇動作。這類技術,即使沒有正常工作,大不了就是嘴不會動,面部表情沒那麼逼真,但實際上並不影響我的正常互動過程,也就是說這個新的嘗試在VR裡對使用者體驗的懲罰非常小,沒有特別大的代價。
所以這種新技術引入進來,如果它真給我們帶來體驗提升是蠻好的一件事情,他如果不穩定,最多也就是跟沒有是一樣的。所以系統工程學的角度上面來說,雖然這種技術它比較先進或者說不太穩定,但是依舊可以早一點引入進來。但是剛才說的像全身動作捕捉、手部識別這這些,它作為主要的人機互動方式,這個東西出問題使用者就沒法操作了,這和前者的互動技術的嵌入是兩碼事。
所以說如果是後者,這種技術就得要非常謹慎了,甚至於可能對人會帶來不舒適感。比如者說你的眼動追蹤直接跟區域渲染相關聯,當眼動追蹤出現失敗率的時候其實是很惱人的,會讓人無可適從,或者說會引起一些錯誤的操作,就動到使用者體驗的根本了。
需要甄別的是,這項互動技術只是為更好的互動效果增光添彩,還是說而是變成了主要的人機互動手段,這兩種情況下使用者對於尚未成熟技術的接受程度完全不是一回事。因此,儘可能用成熟技術,儘可能降低使用者對你的期待值,這是對這個行業負責的一種做法。
技術微創新、微迭代對B端、C端存在不同發展階段
戴若犁:“虛擬現實的輸入與輸出在C端的形態,想來不會有啥革命性大變化了吧。”——這是我PPT最後一張圖上的一句話,它代表了我對C端VR互動產品發展方面的一個回答,我比較堅定的認為,目前咱們現在使用的這一代VR裝置不會有太多新的技術被引入進來,他會在目前已經用到的技術上面去做微創新、微迭代,它可能會收斂到更小更輕,解析度更高更好,加裝更立體的音訊,手部的識別會更加精準,不怕遮擋,範圍更寬,不會丟失。控制器可以更好地還原手部動作,握感更好,並且可以提供一些被動的或者說半主動的觸覺反饋......它會引入這樣一些微小的改動,但是它不會有革命性的大變化。未來只會有一些微小的迭代,這些僅僅限於我標紅的 C端,在B端方面我還是比較樂觀的。
在B端方面還會有比較多的互動技術被逐漸的引入進來,理由其實就是我剛才所說的B端受的限制要遠遠的小於C端。應用領域在各個方面的限制度很小,所以它對於XR產品的功能、互動提出更多應用場景下的可擴充套件性使用需求,同時對於應用的技術手段的穩定性,高性價比會有進一步的最佳化升級,那麼最終它就可以鼓勵更多的新的技術手段融入其中,這反過來也會倒逼技術廠商將單體技術的承受能力提至更高,進而在整合系統工作時提升準確率。所以在B端會有大變化,而且會每年都會看到一些非常新的東西出現在我的視野中。所以如果想看新東西,想看新技術還是看B端,如果想用到真正穩定的系統、舒適的體驗那 C端也會慢慢的迭代。
戴若犁:對於B To C這個領域,我們擅長的事情,相對C端的使用者來說複雜度會比較高一點,但可能在To C端的一些手部動作捕捉的演算法方面,如果有一些C端的廠商需要演算法的貢獻,就這方面我們是可以去聊一聊的,但是在其他方面我們可能短期之內不會往C端直接做內容,或者說往C端直接去做整機的這樣的系統,這也不是我們擅長的事情。
戴若犁:沒錯,這個是我特別樂意去聊的話題,我其實不止一次的向 HTC和Oculus高級別的同事,包括國內一些比較大的廠商聊這個話題。我建議他們把產品線清晰的分成C端產品和 B端產品兩塊,用不同的定價去服務不同的人群,也可以有不同的形態,而B端的形態一定是繫結場景的。
比如說專門在車內用的頭戴式顯示器,可能車內會用AR的頭戴顯示器,就不會是VR。比如說專門應用於多人軍事模擬的頭戴式顯示器、專門應用於工業設計評審、結構設計模擬、工業模擬的頭戴式顯示器和虛擬現實的整套系統。
B端大廠目前沒有去做,是因為堅守著一個非常固有的認知,即大廠做B端是掙不到足夠多的錢的。做B端都是小廠做的事情,我一定要做C端。但是如果VR繼續往後發展,它可以在一個特定的行業領域裡邊變成標配產品或者說一個常用配件,它能支撐的體量其實是足夠大的,因為你賣一臺B端頭顯帶來的利潤相當於C端這邊賣20臺。
B端的使用者願意為這5%的技能提升付出5倍的價格。B端使用者花錢的思路是我的budget是多少,那麼我會考慮我的budget去選市面上效能最好的那一個裝置。所以其實大廠願意做C端,B端這些綁定了眾多場景的裝置、技術需求就會逐漸向中等廠商或者小廠商下移。但是小廠的體量,容錯能力,技術實力很難去做硬體平臺這樣的東西,因此其實我會非常樂於能見到有這樣vision的一些大廠,願意伸手做B端的專用裝置。
戴若犁:其實算的就是經濟賬,除了非常少的有 Vision的一些廠商會去真正幫助人類走到下一個人機互動平臺,絕大部分的大廠(包括大廠裡邊做VR的部門)都有活命的需求。很多大廠旗下的做VR的團隊其實是有生與死的憂慮的。當這個憂慮在的時候,他是沒有決策權的,就更沒有膽量去嘗試他不熟悉的領域。對於C端來說,至少還可以說服他的老闆或者他的母公司,我好歹在幫你收一些使用者數量,這搞不好是下一代的C端的互動平臺,你總得在圈子裡先待著。但B端不一樣,如果膽敢說要去做B端的應用場景,你的老闆/母公司一定會說你要給我掙回錢來,你都做B端、使用者量都不夠了那我就用掙錢這件事情作為KPI,從業績上去考核你。
所以他們面對的是這樣的壓力,並不是說想不想做的問題,其實是他們在目前這樣的一個VR遲遲沒有能夠有比較大的使用者量情況下不得已的一個結果。
如果是長期地用C端的硬體解決方案去做B端的技術平臺應用。他非常類似於我們小時候搞的紅白機遊戲廳,我小時候那些運營電子遊戲廳的人買個30臺紅白機,放在一個小房間裡頭,就去開街機店了。但最後不也沒有了麼,最後還是B端的專業街機(比如專門的摩托車街機、射擊街機等)替代了,這樣的街機最終替代了用消費級紅白機當作街機的時代。用C端的東西去解決B端的問題是個短期行為,是因為B端沒有更好的裝置,所以我認為B端應該會有更多的有Vision的廠商在專業領域去探索掙錢的門道,找到有剛需的B端應用場景,才有可能會反過來推動真正適合B端的一些硬體平臺的在這一領域的產品迭代。
戴若犁:應該會發生的比較快,我覺得核心原因就是在C端其實已經跑出來幾個領頭羊了,將來也就這幾個領頭羊能達到吃飽的狀態,很多廠商在C端勢必會很難生存下去。這些廠商會選擇做B端的東西,同時也會力求做差異化,否則人家繼續拿著C端的更便宜的產品去跟他競爭就沒有意義了。
其實這種廠商已經有了。比如歐洲有一個專業HMD品牌叫XTAL,他們的總部在捷克。它們做了一個有點類似於像小派的大FOV的產品,就是拿出來明確說這就是個B端產品,而AR大廠也有人這麼做,比如微軟HoloLens系列。
C端虛擬現實技術方案已趨於穩定,符合內容、生態長期打磨訴求
戴若犁:我覺得新的這些技術或者是說人機互動這樣的一些手段,如果要切入到更廣泛的人群,引領的行業發展的還是就只能由原廠和平臺廠商來引領,比如Oculus、Vavle、HTC、索尼、任天堂、微軟這些廠商。在我目力所及範圍之內,可能也就他們有能力去舉個大旗引入一些新的方式,讓這些新的方式能夠普惠到更多的人群。
從原生技術提供方的角度上面來說,我看不到特別大的機會能夠獨立去把這個東西推到一個更廣泛的人群。
戴若犁:這個的確是。其實當時Oculus這個產品釋出後來小米引入中國,把它做成小米VR頭顯的時候我是非常興奮的,Go這個產品當時讓大家都寄予厚望,因為當時它的價格真的是到了普通人隨手買一個回去玩玩也行的狀態。
但是當時其實大家還是低估了內容的重要性,當內容數量不夠,或者是說體驗差異度不大的時候,就會帶來不好的體驗感受。不過這件事情是無法避免的,因為只有大屏內容跟不上的情況下,對消費者來說VR體驗跟在手機的螢幕上的差異度不大,因此這種方式必然會逐漸被淘汰。
XR產業正處在不斷髮展的時候,有時候試錯造成的損失是不可避免的。比如在iPhone4真正把智慧手機推廣之前,有多少奇形怪狀的手機。從純功能機到iPhone4這段時間其實出現了很多不同的東西,而那個時候也正是手機行業百花齊放,手機功能最值得把玩的階段。我那個時候在香港生活,基本每半個月到一個月就會換一部手機玩。
但是到了現在其實換手機的衝動很低了,因為大家都已經同質化了,一個多點觸控的大屏解決一切。從產業的角度上來講,好玩不代表有業態,真正的穩定,收斂到效能好,體驗好的狀態才是有了業態。
所以說我剛才那個結論說C端的虛擬現實的技術方案已經趨於穩定了,可能不會有大的革命性的翻天覆地的變化了。這件事情對於生態來說其實是一個大好事,因為大家可以沉下心來,紮紮實實地去長期的積累,去做更多的好的內容,去滿足這個市場的需求。因為在未來可見的一個短期時間裡頭,不會讓你再有一個失望的surprise了。比如類似開發者好不容易做了一套東西,到時候過了幾年又有一個完全全新的顯示和人機互動的系統去把它顛覆掉的情況出現了。
戴若犁:諾亦騰從2015年創立開始就在做跟VR相關的一些工作,我們的Vision,做的事情選擇的道路其實一直都是非常堅定的,就是第一我們是一個小公司,在整體系統這個級別做不了To C的東西,定位就是服務B端的使用者。
第二我們最擅長的事情是跟人機互動相關的,更加專注下來是跟動作捕捉、手部動作捕捉以及它衍生的一些應用,這些是我們特別擅長的事情。