2020年虛擬數字人發展白皮書

首頁>科技>認是2020-12-16 20:01

2020年虛擬數字人發展白皮書

虛擬數字人是指具有數字化外形的虛擬人物。與具備實體的機器人不同，虛擬數字人依賴顯示裝置存在。虛擬數字人宜具備以下三方面特徵：一是擁有人的外觀，具有特定的相貌、性別和性格等人物特徵；二是擁有人的行為，具有用語言、面部表情和肢體動作表達的能力；三是擁有人的思想，具有識別外界環境、並能與人交流互動的能力。本白皮書回顧了虛擬數字人發展歷程，重點分析了虛擬數字人關鍵技術和產業發展現狀，對虛擬數字人的未來發展趨勢進行了展望，剖析了數字人發展中的制約因素，提出產業發展建議。

一、虛擬數字人概述

（一）虛擬數字人研究範疇

“虛擬數字人”一詞最早源於 1989 年美國國立醫學圖書館發起的“可視人計劃”(Visible Human Project, YHP)。2001年, 國內以“中國數字化虛擬人體的科技問題”為主題的香山科學會議第 174 次學術討論會提出了“數字化虛擬人體”的概念。這些“虛擬數字人”主要是指人體結構的視覺化，以三維形式顯示人體解剖結構的大小、形狀、位置及器官間的相互空間關係，即利用人體資訊，實現人體解剖結構的數字化。主要應用於醫療領域的人體解剖教學、臨床診療等。與上述醫療領域的數字化人體不同，本篇中所分析的虛擬數字人（以下簡稱“數字人”）是指具有數字化外形的虛擬人物。與具備實體的機器人不同，虛擬數字人依賴顯示裝置存在。虛擬數字人宜具備以下三方面特徵：一是擁有人的外觀，具有特定的相貌、性別和性格等人物特徵；二是擁有人的行為，具有用語言、面部表情和肢體動作表達的能力；三是擁有人的思想，具有識別外界環境、並能與人交流互動的能力。

（二）虛擬數字人發展歷程

虛擬數字人的發展與其製作技術的進步密不可分，從最早的手工繪製到現在的 CG（Computer Graphics，電腦繪圖）、人工智慧合成，虛擬數字人大致經歷了萌芽、探索、初級和成長四個階段，詳見圖 1。

20 世紀 80 年代，人們開始嘗試將虛擬人物引入到現實世界中，虛擬數字人步入萌芽階段。該時期虛擬數字人的製作技術以手工繪製為主，應用極為有限。1982 年，日本動畫《超時空要塞》播出後，製作方將女主角林明美包裝成演唱動畫插曲的歌手，並製作了音樂專輯，該專輯成功打入當時日本知名的音樂排行榜 Oricon，林明美也成為了世界上第一位虛擬歌姬。1984 年，英國人 George Stone 創作出一個名為Max Headroom 的虛擬人物，MAX 擁有人類的樣貌和表情動作，身穿西裝，佩戴墨鏡，曾參演了一部電影，拍攝了數支廣告，一度成為英國家喻戶曉的虛擬演員。由於技術的限制，其虛擬形象是由真人演員透過特效化妝和手繪實現。

21 世紀初，傳統手繪逐漸被 CG、動作捕捉等技術取代，虛擬數字人步入探索階段。該階段的虛擬數字人開始達到實用水平，但造價不菲，主要出現在影視娛樂行業，如數字替身、虛擬偶像等。電影製作中的數字替身一般利用動作捕捉技術，真人演員穿著動作捕捉服裝，臉上點上表情捕捉點，透過攝像機、動作捕捉裝置將真人演員的動作、表情採集處理，經計算機處理後賦予給虛擬角色。2001 年，《指環王》中的角色咕嚕就是由 CG 技術和動作捕捉技術產生，這些技術後續還在《加勒比海盜》、《猩球崛起》等電影製作中使用。2007 年，日本製作了第一個被廣泛認可的虛擬數字人“初音未來”，初音未來是二次元風格的少女偶像，早期的人物形象主要利用 CG 技術合成，人物聲音採用雅馬哈的VOCALOID1系列語音合成，呈現形式還相對粗糙。

近五年，得益於深度學習演算法的突破，數字人的製作過程得到有效簡化，虛擬數字人開始步入正軌，進入初級階段。該時期人工智慧成為虛擬數字人不可分割的工具，智慧驅動的數字人開始嶄露頭角。2018 年，新華社與搜狗聯合釋出的“AI合成主播”，可在使用者輸入新聞文字後，在螢幕展現虛擬數字人形象並進行新聞播報，且唇形動作能與播報聲音實時同步。2019 年，浦發銀行和百度共同釋出的數字員工“小浦”，也是利用自然語言處理、語音識別、計算機視覺等人工智慧技術製作的虛擬數字人，可透過移動裝置為使用者提供“面對面”的銀行業務服務。

當前，虛擬數字人正朝著智慧化、便捷化、精細化、多樣化發展，步入成長期。2019 年，美國影視特效公司數字王國軟體研發部負責人 Doug Roble 在 TED 演講時展示了自己的虛擬數字人“DigiDoug”，可在照片寫實級逼真程度的前提下，進行實時的表情動作捕捉及展現。今年，三星旗下的STAR Labs在CES國際消費電子展上展出了其虛擬數字人專案 NEON，NEON 是一種由人工智慧所驅動的虛擬人物，擁有近似真人的形象及逼真的表情動作，具備表達情感和溝通交流的能力。

（三）當前虛擬數字人通用系統框架及運作流程

當前虛擬數字人作為新一代人機互動平臺，仍處於發展期，還未有統一的通用系統框架。本白皮書根據虛擬數字人的製作技術以及目前市場上提供的數字人服務和產品結構，總結出虛擬數字人通用系統框架，如圖 2 所示。虛擬數字人系統一般情況下由人物形象、語音生成、動畫生成、音影片合成顯示、互動等 5 個模組構成。人物形象根據人物圖形資源的維度，可分為 2D 和 3D 兩大類，從外形上又可分為卡通、擬人、寫實、超寫實等風格；語音生成模組和動畫生成模組可分別基於文字生成對應的人物語音以及與之相匹配的人物動畫；音影片合成顯示模組將語音和動畫合成影片，再顯示給使用者。互動模組使數字人具備互動功能，即透過語音語義識別等智慧技術識別使用者的意圖，並根據使用者當前意圖決定數字人後續的語音和動作，驅動人物開啟下一輪互動。

互動模組為擴充套件項，根據其有無，可將數字人分為互動型數字人和非互動型數字人。非互動型數字人體統的運作流程如圖 3 所示。系統依據目標文字生成對應的人物語音及動畫，併合成音影片呈現給使用者。

互動型數字人根據驅動方式的不同可分為智慧驅動型和真人驅動型。智慧驅動型數字人可透過智慧系統自動讀取並解析識別外界輸入資訊，根據解析結果決策數字人後續的輸出文字，然後驅動人物模型生成相應的語音與動作來使數字人跟使用者互動。該人物模型是預先透過AI技術訓練得到的，可透過文字驅動生成語音和對應動畫，業內將此模型稱為TTSA（Text To Speech & Animation）人物模型。真人驅動型數字人則是透過真人來驅動數字人，主要原理是真人根據影片監控系統傳來的使用者影片，與使用者實時語音，同時透過動作捕捉採集系統將真人的表情、動作呈現在虛擬數字人形象上，從而與使用者進行互動。

二、虛擬數字人關鍵技術趨勢

（一）虛擬數字人技術架構

當前，虛擬數字人的製作涉及眾多技術領域，且製作方式尚未完全定型，透過對現有虛擬數字人制作中涉及的常用技術進行調研，本白皮書在虛擬數字人通用系統框架的基礎上提煉出五橫兩縱的技術架構，如圖 6 所示。 “五橫”是指用於數字人制作、互動的五大技術模組，即人物生成、人物表達、合成顯示、識別感知、分析決策等模組。其中，人物表達包括語音生成和動畫生成。動畫生成則包含驅動（動作生成）和渲染兩大部分。“兩縱”是指 2D、3D 數字人，3D 數字人需要額外使用三維建模技術生成數字形象，資訊維度增加，所需的計算量更大。

本白皮書重點關注虛擬數字人制作過程涉及的建模、驅動、渲染三大關鍵技術。

（二）建模：靜態掃描建模仍為主流，包含人行為動作且具有高視覺保真度的動態光場三維重建初見端倪

相機陣列掃描重建替代結構光掃描重建成為人物建模主流方式。早期的靜態建模技術以結構光掃描重建為主。結構光掃描重建可以實現 0.1 毫米級的掃描重建精度，但其掃描時間長，一般在 1 秒以上，甚至達到分鐘級，對於人體這類運動目標在友好度和適應性方面都差強人意，因此被更多的應用於工業生產、檢測領域。近年來，拍照式相機陣列掃描重建得到飛速發展，目前可實現毫秒級高速拍照掃描（高效能的相機陣列精度可達到亞毫米級），滿足數字人掃描重建需求，成為當前人物建模主流方式。國際上 IR、Ten24 等公司已經將靜態重建技術完全商業化，服務於好萊塢大型影視數字人制作，國內凌雲光等公司製作的拍照式人體掃描系統也已經在電影、遊戲、虛擬主播專案中成功應用。

相比靜態重建技術，動態光場重建不僅可以重建人物的幾何模型，還可一次性獲取動態的人物模型資料，並高品質重現不同視角下觀看人體的光影效果，成為數字人建模重點發展方向。動態光場重建是目前世界上最新的深度掃描技術，此技術可忽略材質，直接採集三維世界的光線，然後實時渲染出真實的動態表演者模型，它主要包含人體動態三維重建和光場成像兩部分。人體動態三維重建一直是計算機視覺、計算機圖形學等領域研究的重點，主要採用攝像機陣列採集動態資料，可重建高低頻幾何、紋理、材質、三維運動資訊。光場成像是計算攝像學領域一項新興技術，它不同於現有僅展示物體表面光照情況的 2D 光線地圖，光場可以儲存空間中所有光線的方向和角度，從而產出場景中所有表面的反射和陰影，這為人體三維重建提供了更加豐富的影象資訊。近年來 Mirosoft、Google、Intel、Facebook 等公司都在積極展開相關研究，其中 Microsoft 的 108 攝像機 MRstudio已經在全球各大洲均有建設；Google 的 Relightable 系統將結構光、動態建模、重光照技術整合到一起，在一套系統中包含模型重建、動作重建、光照重建的全部功能；國內清華大學、商湯科技、華為等也展開了相關研究，並取得國際水平的同步進展。

（三）驅動：智慧合成、動作捕捉遷移成為數字人目前主流的動作生產方式

2D、3D 數字人均已實現嘴型動作的智慧合成，其他身體部位的動作目前還只支援錄播。2D、3D 數字人嘴型動作智慧合成的底層邏輯是類似的，都是建立輸入文字到輸出音訊與輸出視覺資訊的關聯對映，主要是對已採集到的文字到語音和嘴型影片（2D）/嘴型動畫（3D）的資料進行模型訓練，得到一個輸入任意文字都可以驅動嘴型的模型，再透過模型智慧合成。然而，2D 影片和 3D 嘴型動畫底層的數學表達不一樣，2D 影片是畫素表達；3D 嘴型動畫是 3D 模型對應的 BlendShape 的向量表達。除了嘴型之外的動作，包含眨眼、微點頭、挑眉等動畫目前都是透過採用一種隨機策略或某個指令碼策略將預錄好的影片/3D 動作進行迴圈播放來實現。例如 3D 肢體動作目前就是透過在某個位置觸發這個預錄好的肢體動作資料得到。觸發策略是透過人手動配置得到的，未來希望透過智慧分析文字，學習人類的表達，實現自動配置。截至目前，國內外科技企業在數字人動作智慧合成方面都有一定進展，國際上如 Reallusion 公司研究的利用語音生成面部表情的 Craytalk 技術已在動畫製作中被成功商用，國內搜狗、相芯科技等公司也有部分專案落地應用。

透過將捕捉採集的動作遷移至數字人是目前3D數字人動作生成的主要方式，核心技術是動作捕捉。動作捕捉技術按照實現方式的不同，可分為光學式、慣性式、電磁式及基於計算機視覺的動作捕捉等。現階段，光學式和慣性式動作捕捉佔據主導地位，基於計算機視覺的動作捕捉成為聚焦熱點。光學動作捕捉透過對目標上特定光點的監視和跟蹤來完成運動捕捉的任務。最常用的是基於 Marker（馬克點）的光學動作捕捉，即在演員身上貼上能夠反射紅外光的馬克點，透過攝像頭對反光馬克點的追蹤，來對演員的動作進行捕捉。這種方式對動作的捕捉精度高，但對環境要求也高，並且造價高昂。光學式解決方案比較出名的企業有英國的Vicon，美國的 OptiTrack 和魔神（Motion Analysis），國內的 Nokov、uSens、青瞳視覺等。慣性動作捕捉主要是基於慣性測量單元（Inertial Measurement Unit，IMU）來完成對人體動作的捕捉，即把集成了加速度計、陀螺儀和磁力計的IMU 綁在人體的特定骨骼節點上，透過演算法對測量數值進行計算，從而完成動作捕捉。這種慣性動作捕捉方案價格相對低廉，但精度較低，會隨著連續使用時間的增加產生累積誤差，發生位置漂移。慣性式動捕方案的代表性企業有荷蘭的 Xsens，以及國內的諾亦騰（Noitom）、幻境、國承萬通等。基於計算機視覺的動作捕捉主要是透過採集及計算深度資訊來完成對動作的捕捉，是近些年才興起的技術。這種視覺動捕方式因其簡單、易用、低價，已成為目前使用的頻率較高的動作捕捉方案，代表性產品有 Leap Motion、微軟Kinect 等。以上動捕方案的效能對比如表 1 所示。

（四）渲染：隨著硬體能力的提升和演算法的突破，真實性和實時性均大幅提升

PBR（Physically Based Rendering，基於物理的渲染技術）渲染技術的進步以及重光照等新型渲染技術的出現使數字人面板紋理變得真實，突破了恐怖谷效應。恐怖谷效應由日本機器人專家森政弘提出，認為人們對機器人的親和度隨著其模擬程度增加而增高，但當達到一個較高的臨界點時，親和度會突然跌入谷底，產生排斥、恐懼和困惑等負面心理。數字人恐怖谷效應主要由數字人外表、表情動作上與真人的差異帶來，其中外表真實感的關鍵就是面板材質的真實感，無論是塑膠感還是蠟像感都會給人類帶來不適。在 PBR 技術出現之前，限於相關軟硬體的發展程度，所有的 3D 渲染引擎，更多的著重在於實現 3D 效果，在真實感體現方面差強人意。PBR 是基於真實物理世界的成像規律模擬的一類渲染技術的集合，它的關鍵在於微表面模型和能量守恆計算，透過更真實的反映模型表面反射光線和折射光線的強弱，使得渲染效果突破了塑膠感。目前常見的幾款 3D 引擎，如UnrealEngine 4, CryEngine 3, Unity 3D 5，均有了各自的 PBR實現。重光照技術透過採集模擬多種光照條件的影象資料，測算數字人表面光照反射特性，併合成出數字人模型在新的光照下的渲染結果，使計算機中的虛擬數字人在任意虛擬環境下都可以呈現近乎真實的效果，它徹底改變了傳統渲染方式透過模擬面板複雜的透射反射來計算渲染總會帶來誤差的局面。該技術在 2000 年初由南加州大學實驗室建立LightStage 平臺時提出，並開始了相關研究，目前已經經過 7代的迭代發展，已被成功應用到《阿凡達》、《復仇者聯盟》等眾多經典影片的角色製作中。國內清華大學、浙江大學也都建設了重光照系統，可以實現高精度人體光照採集與重建。

實時渲染技術的突破助力寫實類數字人實現實時互動，應用範圍快速擴大。實時渲染指圖形資料的實時計算與輸出，其每一幀都是針對當時實際的環境光源、相機位置和材質引數計算出來的影象。與離線渲染相比，實時渲染面臨較大挑戰。一是渲染時長短，實時渲染每秒至少要渲染 30 幀，即在 33 毫秒內完成一幀畫面渲染，離線渲染則可以花費數小時甚至更長時間渲染一幀畫面；二是計算資源有限，實時渲染受限於時效要求，計算資源一般是不能及時調整，而離線渲染受時效限制較低，可臨時調配更多的計算資源。早期的實時渲染只能選擇高度抽象和簡化過的渲染演算法，犧牲了畫面質量。隨著硬體能力的提升和演算法的突破，渲染速度、渲染效果的真實度、渲染畫面的解析度均大幅提升，在虛擬人物實時渲染方面，已經能做到以假亂真。2016 年，EpicGames 聯合 3Lateral、Cubic Motion、Ninja Theory 等公司聯合開發的可實時驅動的虛擬人物在當年的 Siggraph（SpecialInterest Group for Computer GRAPHICS，計算機圖形影象特別興趣小組，致力於推廣和發展計算機繪圖和動畫製作的軟硬體技術）會議中做了演示，成功在消費級的硬體環境下實時渲染了高質量的虛擬角色。2018 年 5 月，騰訊釋出虛擬人 Siren，也一個支援實時渲染的虛擬人物。

三、虛擬數字人產業應用現狀

（一）虛擬數字人產業檢視

當前虛擬數字人理論和技術日益成熟，應用範圍不斷擴大，產業正在逐步形成、不斷豐富，相應的商業模式也在持續演進和多元化。虛擬數字人的產業鏈從上到下可以分為基礎層、平臺層和應用層，如圖 7 所示。

（1）基礎層

基礎層為虛擬數字人提供基礎軟硬體支撐，硬體包括顯示裝置、光學器件、感測器、晶片等，基礎軟體包括建模軟體、渲染引擎。顯示裝置是數字人的載體，既包括手機、電視、投影、LED 顯示等 2D 顯示裝置，也包括裸眼立體、AR、VR 等 3D 顯示裝置。光學器件用於視覺感測器、使用者顯示器的製作。感測器用於數字人原始資料及使用者資料的採集。晶片用於感測器資料預處理和數字人模型渲染、AI 計算。建模軟體能夠對虛擬數字人的人體、衣物進行三維建模。渲染引擎能夠對燈光、毛髮、衣物等進行渲染，主流引擎包括 Unity Technologies 公司的 Unity 3D、Epic Games公司的 Unreal Engine 等。總體來看，處於基礎層的廠商已經深耕行業多年，已經形成了較為深厚的技術壁壘。

（2）平臺層

平臺層包括軟硬體系統、生產技術服務平臺、AI 能力平臺，為虛擬數字人的製作及開發提供技術能力。建模系統和動作捕捉系統透過產業鏈上游的感測器、光學器件等硬體獲取真人/實物的各類資訊，利用軟體演算法實現對人物的建模、動作的重現；渲染平臺用於模型的雲端渲染。解決方案平臺基於自身技術能力為廣大客戶提供數字人解決方案。AI 能力平臺提供計算機視覺、智慧語音、自然語言處理技術能力。平臺層匯聚的企業較多，騰訊、百度、搜狗、魔琺科技、相芯科技均有提供相應數字人技術服務平臺。

（3）應用層

應用層是指虛擬數字人技術結合實際應用場景領域，切入各類，形成行業應用解決方案，賦能行業領域。按照應用場景或行業的不同，已經出現了娛樂型數字人（如虛擬主播、虛擬偶像）、教育型數字人（如虛擬教師）、助手型數字人（如虛擬客服、虛擬導遊、智慧助手）、影視數字人（如替身演員或虛擬演員）等。不同外形、不同功能的虛擬數字人賦能影視、傳媒、遊戲、金融、文旅等領域，根據需求為使用者提供定製化服務。

（二）虛擬數字人重點領域應用環境及典型應用案例分析

虛擬數字人應用給傳統領域帶來變革。透過虛擬數字人產品與生產生活相融合，其規模化、可定製化、可複製化的能力能夠推動改善傳統環節流程、提升效能、降低成本等，大幅提升業務體驗，給傳統領域帶來變革。典型的應用領域、場景及充當的角色如表 3 所示。

（1）虛擬數字人+影視

特效電影廣受市場認可，扶持政策的密集出臺，以數字替身為代表的虛擬數字人+影視類的產品應用正在展現廣闊的市場前景。影視是對視覺效果的要求最高且最大程度影響社會對數字人形象認知、品牌的一個領域。近年來中國影視數字人特效取得快速發展，部分特效大片獲得市場認可。2019 年中國影視票房收入超過 640 億級別，連續多年增長8%左右，其中特效電影約佔 10%。國家對於影視特效的發展十分重視，先後出臺了一系列相關扶持政策。2019 年，科技部、文化部聯合六部委釋出《關於促進文化和科技深度融合的指導意見》，提出加強鐳射放映、虛擬現實、光學捕捉、影視攝錄、高畫質製播、影象編輯等高階文化裝備自主研發及產業化。2020 年，國家電影局《關於促進科幻電影發展的若干意見》，提出以科幻電影特效技術發展引領帶動電影特效水平整體提升，並要落實財稅支援政策，同時對入駐影視文化基地的科技企業進行租金減免。於 2019 年 2 月 22 日在中國內地上映的《阿麗塔：戰鬥天使》是虛擬數字人技術與影視相結合的典型應用案例之一。劇中的女主角阿麗塔是一位完全採用數字人技術製作的角色。該電影透過採用特殊的面部捕捉儀器對真人演員人臉細節進行精準捕捉，然後將其作為電腦中虛擬角色的運動依據，使虛擬角色的動作和表情能像真人一樣自然逼真。

（2）虛擬數字人+傳媒

以虛擬主播為代表傳媒行業應用很好的滿足了媒體傳播領域對內容生成方面的業務需求，成為了融媒體時代的傳媒利器。據前瞻產業研究院統計，2019 年中國影片直播行業收入達到 1082 億人民幣，全國有 3.9 億人在關注虛擬偶像，其中最大的二次元活動社群B站月活使用者達 1140 萬，虛擬主播佔直播營收 40%。同期，B站、虎牙等大型直播平臺也都開啟了線上、線下虛擬主播活動。如Bilibili Macro Link系列活動VR直播觀看如數達到 660 萬，10 萬級的“up主”（指在影片網站、論壇、FTP站點上傳影片音訊檔案的人）就可以達到 100 萬級真人主播的應收。此外，在傳統媒體領域，以虛擬主持人為代表的數字人應用也開始進入公眾視野。在2019 年央視網路春晚舞臺上，以撒貝南為原型製作的AI虛擬主持人“小小撒”首次上崗與原型同臺秀技。這也是國內第一次人類主持人和自己的虛擬孿生數字人共同主持大規模的國家級文化活動，引起了業界及網民的強烈關注。

（3）虛擬數字人+遊戲

遊戲市場日趨激烈，對於精品的需求日益增長，或是虛擬數字人技術在該領域落地的福音。2019 年遊戲市場規模達到 2300 億，其中與數字人相關度較大的RPG類遊戲約佔 30%的份額。我國國內遊戲監管環境和遊戲版號審批政策仍舊趨嚴，遊戲使用者數相比 2018 年僅增加 0.1 億，市場競爭日趨激烈，對於精品的需求越來越高。虛擬數字人技術則能夠有效簡化和加快遊戲動畫製作過程，可以在有限成本的情況下讓遊戲中更多的虛擬角色都具備豐富的肢體動作和精細的面部表情，給玩家帶來更沉浸的遊戲體驗。例如網易伏羲實驗室成功將虛擬數字人技術應用到《逆水寒》等多個遊戲劇情動畫場景製作中，在無手工參與下，快速生成動畫，這使得大量的虛擬角色都能富有視覺的表達能力。

（4）虛擬數字人+金融

虛擬數字人能夠有效助力金融機構實現“降本增效”，各大金融巨頭爭相佈局“數字員工”。運用金融科技實現“降本增效”應對市場競爭成為金融行業發展共識，以科技為核心的競爭導向，帶來了金融機構資訊科技投入的逐年增加。據輕金融統計，2019 年，16 家全國性銀行科技總投入超千億，總計 1034.1 億元。其中工農中建四大行投入均超過 100 億元，建行投入最高，達到 176.33 億元。虛擬數字人擁有擬人的表情動作，可進行智慧對話，能夠與服務類場景較多的金融行業天然結合。多家金融機構正利用虛擬數字人技術打造“數字員工”，成為了科技創新、降本增效的重要方向。以中國工商銀行為例，其推出的數字人銀行員工，在移動終端和大屏等媒介上展現數字擬態形象，能夠在產品營銷講解、金融業務辦理、資訊播報、諮詢問答等多個業務場景，實現與使用者的視覺化互動，為使用者帶來個性化服務，有效解除使用者顧慮，提升使用者體驗和駐留時間，真正讓數字化服務“聽得見”的同時也“看得見”。

（5）虛擬數字人+文旅

數字文旅產業表現突出，以虛擬講解員為代表的虛擬數字人應用或為其貢獻蓬勃力量。據中國旅遊研究院統計，2019 年前三季度，文旅營業收入 62187 億元，比上年同期增長 7.6%，特別是數字文旅產業表現突出，成為文旅產業轉型升級的重要引擎。數字文化內容與網際網路旅遊、智慧旅遊、虛擬旅遊等新模式聯動發展，特別是疫情期間得到不斷增長。目前，虛擬數字人在文旅領域暫時還沒有落地產品，但相關概念產品已經開始映入公眾眼簾。例如商湯科技在 2020世界人工智慧大會（WAIC）上展示的AI數字人“小糖”。“小糖”可依託於展臺前的滑動螢幕，為觀眾介紹和講述預先設定好的講解內容。虛擬數字人帶來的全新展示方式和講解模式，在幫助文旅場館解決人力不足問題的同時，更憑藉其智慧化、電子化和展示效果多樣化的特性，為文旅行業的未來帶來更多可能性。

四、虛擬數字人發展趨勢、制約因素及建議

（一）虛擬數字人未來發展趨勢

虛擬數字人的採集、製作流程逐步簡單化、一體化，迭代式提升真實感。未來數字人的製作技術將會變得更加簡單，會有更加一體化、自動化的裝置同步獲取模型、身體、表情、手指運動、聲音等所有資料，無需穿戴專業感測裝置。在特定的環境下人們甚至無法分辨數字人的真假，可以更加自然與數字人交流互動。

虛擬數字人的互動方式衍變，智慧化程度不斷加深。全雙工技術將推進數字人的互動方式衍變，讓數字人擁有一次喚醒、多次互動的能力，具備實時智慧響應、智慧打斷、智慧糾錯、多輪對話等功能。另外，隨著計算機視覺、語音和自然語言處理等人工智慧技術的不斷進步，虛擬數字人將逐漸具備“看”、“聽”、“說”、“懂”的能力。

（二）虛擬數字人發展制約因素

目前，制約虛擬數字人產業發展的因素主要有以下幾個方面。

政策環境層面，行業依然處於培育期，缺乏政策與資本扶持。一是缺少上下游協作交流平臺，制約整體產業化發展。虛擬數字人產業鏈長，參與主體多，既有大型平臺企業、也有中小單位和初創公司，行業溝通成本高。二是行業投資回報週期較長，為數字人產業投資豎立了“無形壁壘”。數字人產業還不完全成熟，投資回報週期較傳統技術應用更長，缺乏長期耐心資本來扶持企業成長。由於缺乏資本力量的推動，各產業規模擴張與資源整合的程序相對滯後。

技術應用層面，製作方式自動化程度低、生產門檻高，關鍵技術還不夠完全成熟。目前 3D 數字人建模依然需要大量的人工製作參與，整體制作效率相對較低，與部分應用場景快速、批次製作的需求並不匹配。此外，在虛擬數字人的關鍵技術方面，還存在實時面部表情捕捉與還原精準度不足、語音識別在強噪聲干擾及遠場識別等方面還很難達到實用化要求等瓶頸，需要加大研究力度以提高演算法精度。

人才培養層面，技術人才、綜合人才極度缺乏，人才供應體系不完善。數字人的技術跨度大，從製作端的美術師、模型師、繫結師、材質師、動作捕捉師、燈光師、特效師、攝像師、導演、特效演員，到技術端的光學工程師、硬體工程師、軟體工程師、演算法工程師、系統工程師，以及運營端的產品經理、經紀人等每一個環節的人才都很重要，急需一套完善的人才供應體系，特別是跨界人才體系，才能保障產業的良性運轉。

標準體系層面，行業內缺乏統一技術標準和體系，產品質量良莠不齊。數字人的產業處於發展初期，製作型公司、技術型公司、運營型公司、應用型公司均已入場，但各企業的技術、產品質量差異較大。透過建立虛擬數字人的技術、產品標準體系，保護優質數字人廠商，促進行業健康發展。

安全倫理層面，相關法律法規和倫理規範尚待完善，存在潛在風險。虛擬數字人技術在發展中會引發一些法律問題和倫理風險，需要提前建立相關制度進行防範。虛擬世界裡面的虛擬人物所有權、犯罪行為尚沒有法律上的界定。虛擬數字人帶來的沉浸式體驗可能會對使用者的精神、心理狀態帶來影響，改變使用者在脫離虛擬世界後的行為，比如可能會增加暴力傾向，存在一定倫理風險。

（三）虛擬數字人產業發展建議

最佳化產業政策，推動產業健康發展。為進一步推動虛擬數字人產業發展，建議從以下幾個方面最佳化產業政策。一是引導長線資本，加大對我國虛擬數字人發展的基礎理論、實現方法、研發工具、技術系統等方面的資金支援力度，重點推進計算機圖形學等基礎理論研究，加快三維重建、動作捕捉、渲染合成、智慧互動等核心關鍵技術研究，開展虛擬數字人制作流程智慧升級研究，簡化製作難度，減少人工作業，提高生產效率。二是搭建數字人產學研一體化生態平臺，建立健全高校、研究機構、行業協會、智庫等的協同推進機制，增進企業技術協同、產品互聯互通、上下游積極聯動，加強在技術攻關、瓶頸突破、標準制定等方面的協調配合。三是加強行業對接，積極鼓勵數字人技術與金融、文旅、教育等傳統行業融合發展，鼓勵政府部門率先運用虛擬數字人提升業務效率和管理服務水平，為行業發展起到率先垂範作用，營造良好的產業氛圍。

加快人才培養，鼓勵合作共贏。要加強人才隊伍建設，加強後備人才培養力度，為產業發展提供更加充分的人才支撐。搭建基礎研究和交叉學科研究的創新平臺，培養學科交叉、知識融合、技術整合的複合型人才。鼓勵科研機構、高等院校和相關企業聯合開展虛擬數字人相關基礎知識和應用培訓。鼓勵高校、科研院所與企業間開展合作，建設一批虛擬數字人領域實訓基地。同時，鼓勵國內外科研院所、企業、行業組織拓寬交流渠道，廣泛開展合作，實現優勢互補、合作共贏。

加強統籌協調，加快標準化建設。建立統一的虛擬數字人標準體系，圍繞標準體系，立足國內、借鑑國際，加強虛擬數字人標準化工作的總體規劃和頂層設計，統籌開展虛擬數字人關鍵技術、基礎應用、服務平臺、產品應用及服務和安全等領域的標準研製。以虛擬數字人產業發展需求為引領，圍繞產業發展中存在的共性問題，加快推進重點標準和基礎標準的研製，動態更新虛擬數字人綜合標準化體系，及時滿足產業發展亟需。著重在虛擬數字人的三維建模、動作捕捉、智慧互動、2D/3D 基礎應用、安全可信等方面，開展相關標準的研製，進一步建立評級體系，以標準化手段提高技術創新的市場化效率。

提前規劃佈局，開展審慎包容監管。為更好地應對虛擬數字人潛在的風險問題，建議聯合產業界各方著重以下兩個方面的工作推進。一是共同開展數字人身份管理及內容安全的研究工作，從政策層面做好產業體系化佈局，在堅決打擊惡意違法行為的同時，給新興技術一定包容發展的空間。二是加緊研究各類虛擬數字人應用對人的心理影響，以及對人類社會帶來的影響，並儘快出臺相關約束與法律法規。

如需完整報告請登入【未來智庫官網】。

最新評論

劇多

2020年虛擬數字人發展白皮書

相關內容