人工智慧丨研究報告
全文字數:7786字 精讀時間:20分鐘
核心摘要:
在經歷了一段時期的野蠻生長之後,人工智慧基礎資料服務行業進入成長期,行業格局逐漸清晰。人工智慧基礎資料服務方的上游是資料生產和外包提供者,下游是AI演算法研發單位,人工智慧基礎資料服務方通過資料處理能力和專案管理能力為其提供整體的資料資源服務,不過AI演算法研發單位和AI中臺也可提供一些資料處理工具,產業上下游普遍存在交叉。
2018年中國人工智慧基礎資料服務市場規模為25.86億元,其中資料資源定製服務佔比86%,預計2025年市場規模將突破113億元。市場供給方主要由人工智慧基礎資料服務供應商和演算法研發單位自建或直接獲取外包標註團隊的形式組成,其中供應商是行業主要支撐力量。
資料安全、採標能力、資料品質、管理能力、服務能力等仍是需求方的痛點,需要人工智慧基礎服務商有明確具體的安全管理流程、能夠深入理解演算法標註需求、可提供精力集中且高品質的服務、能夠積極配合、快速響應需求方的要求。
隨著演算法需求越來越旺盛,依賴人工標註不能滿足市場需求,因此增強資料處理平臺持續學習能力,由機器持續學習人工標註,提升預標註和自動標註能力對人工的替代率將成趨勢。遠期,越來越多的長尾、小概率事件所產生的資料需求增強,機器模擬或機器生成資料會是解決這一問題的良好途徑,及早研發相應技術也將成為AI基礎資料服務商未來的護城河。
人工智慧基礎資料服務行業概述人工智慧基礎資料服務定義
意指為AI演算法訓練及優化提供資料採集和標註等形式的服務
人工智慧基礎資料服務指為AI演算法訓練及優化提供的資料採集、清洗、資訊抽取、標註等服務,以採集和標註為主。人工智慧概念爆發伊始,演算法、算力、資料就作為最重要的三要素被人們樂道,進入落地階段,智慧互動、人臉識別、無人駕駛等應用成為了最大的熱門,AI公司開始比拼技術與產業的結合能力,而資料作為AI演算法的“燃料”,是實現這一能力的必要條件,因此,為機器學習演算法訓練、優化提供資料採集、標註等服務的人工智慧基礎資料服務成為了這一人工智慧熱潮中必不可少的一環。如果說計算機工程師是AI的老師,那基礎資料服務就是老師手中的教材。
人工智慧基礎資料服務發展歷程
行業進入成長期,行業格局逐漸清晰
伴隨國內人工智慧熱潮爆發,大量的AI公司拿到融資,為了不斷提高演算法精度,資料採標需求也空前爆發,一度催生了行業的繁榮。但早期的AI基礎資料服務門檻較低,玩家魚龍混雜,使行業標準模糊、服務品質參差不齊。隨著競爭加快,AI公司對訓練資料的品質要求也不斷提高,並且當產業落地成為主旋律,需求方對垂直場景的定製化資料採標需求成為主流,眾多小型AI基礎資料服務公司從資料品質和採標能力上達不到要求,或被淘汰,或依附大平臺,行業格局逐漸清晰,頭部公司實力逐漸凸顯。隨著演算法需求越來越旺盛,目前機器輔助標註、人工主要標註的手段需要改進提升,增強資料處理平臺持續學習和自學習能力,增加機器能夠標註維度、提升機器處理資料的精度,由機器承擔主要標註工作將成為下一階段的行業重心。未來,越來越多的長尾、小概率事件所產生的資料需求增強,人機協作標註的模式價效比不足,機器模擬或機器生成資料會是解決這一問題的良好途徑,及早研發相應技術也將成為AI基礎資料服務商未來的護城河。
人工智慧基礎資料服務的行業價值
目前有監督的深度學習是主流,標註資料是其學習根本
人工智慧是研究如何通過機器來模擬人類認知能力的科學,機器學習是現階段實現人工智慧的主要手段。機器學習方法通常是從已知資料中學習規律或者判斷規則,建立預測模型,其中,深度學習可以通過對低層特徵的組合,形成更加抽象的高層屬性類別,自動從資訊中學習有效的特徵並進行分類,而無需人為選取特徵。憑藉自動提取特徵、神經網路結構、端到端學習等優勢,深度學習在影象和語音領域學習效果最佳,是當今最熱門的演算法架構。在實際應用中,深度學習演算法多采用有監督學習模式,即需要標註資料對學習結果進行反饋,在大量資料訓練下,演算法錯誤率能大大降低。現在的人臉識別、自動駕駛、語音互動等應用都採用這類方法訓練,對於各類標註資料有著海量需求,可以說資料資源決定了當今人工智慧的高度。由於應用有監督學習的AI演算法對於標註資料的需求遠大於現有的標註效率和投入預算,無監督或僅需要少量標註資料的弱監督學習、小樣本學習成為了科學家探索的方向,但目前無論從學習效果和使用邊界來看,均不能有效替代有監督學習,人工智慧基礎資料服務將持續釋放其對於人工智慧的基礎支撐價值。
人工智慧基礎資料服務的主要產品形式
定製服務為主要服務形式,資料集產品集中於語音類賽道
目前,國內AI基礎資料服務主要為資料集產品和資料資源定製服務,資料集產品往往是AI基礎資料服務商根據自身積累產出的標準資料集,以語音資料集為主,主體偏普通話語音、英文語音、方言語音等;為保證演算法優勢,客戶更多采用定製化服務,由客戶提出具體需求,資料服務商或直接對客戶提供的資料進行標註、或對資料進行採集並標註。大型的需求方,為保障資料的安全,往往提供Web形式的自有標註平臺給執行方,以此對整體專案進行把控,也有一些AI基礎資料服務商向客戶提供私有化平臺建設服務,或將自身平臺與甲方系統相容;除以上兩種形式外,部分AI基礎資料服務商還向演算法服務進行拓展,提供演算法訓練、模型搭建等服務。
人工智慧基礎資料服務的發展背景
人工智慧經濟崛起為基礎資料服務提供長期向好的基本面
2010年語音識別和計算機視覺領域產生重大突破,國內開始萌生AI概念。到2015年,國內迎來人工智慧創業熱潮,獨角獸不斷湧現,融資記錄被不斷打破。2012年-2019年8月人工智慧領域共發生2787件投融資事件,總融資額達4740億元,人工智慧成為最炙手可熱的融資熱點,百度、阿里、騰訊、京東、華為等科技企業也紛紛加註。2017年至今,產業落地成為AI行業的主流,人工智慧賦能實體經濟保持高速發展態勢,涉及行業包括安防、金融、零售、交通、教育、醫療、營銷、工業、農業、企服等眾多領域。下游的爆發式增長為人工智慧基礎資料服務的發展提供了長期向好的基本面。
資料量呈指數式增長,非結構化資料的應用依賴於清洗標註
PC、網際網路、消費級移動裝置的興起宣告了資料時代的來臨,物聯網的發展更使線下業務產生的大量資料被採集起來,資料量呈指數式增長,據IDC統計,全球每年生產的資料量將從2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%是非結構化資料。過去計算機主要處理結構化資料,人工智慧模型卻以處理非結構化資料見長,但“玉不琢不成器”,資料經過清洗與標註才能被喚醒價值,這就產生了源源不斷的清洗與標註需求。在中國,每年需要進行標註的語音資料超過200萬小時,圖片則有數億張。
人工智慧基礎資料服務市場現狀人工智慧基礎資料服務產業鏈
AI基礎資料服務方是行業核心環節
人工智慧基礎資料服務產業圖譜
產業上下游普遍存在交叉
AI基礎資料服務方的上游是資料生產和外包提供者,下游是AI演算法研發單位,AI基礎資料服務方通過資料處理能力和專案管理能力為其提供整體的資料資源服務。 AI基礎資料服務方整體有兩大類,一種是具備自有的標註基地或全職標註團隊,這類企業也參與產業上游部分直接提供產能資源,另一種是依靠眾包或外包模式,專注於資料產品的開發與專案執行。下游部分AI公司擁有自己的標註工具,也可通過AI中臺獲取一些通用標註工具,同時一些資料需求大的企業還孵化了自己的資料服務團隊。整體而言,產業上下游普遍存在交叉關係。
人工智慧基礎資料服務行業投融資
融資規模集中於千萬量級,早期融資專案居多
從融資規模來看,人工智慧基礎資料服務市場的融資多集中在千萬級別。從時間維度來看,2015年人工智慧基礎資料服務商獲得的融資金額相對較高,標誌著行業初露頭角,受到資本的認可。從獲得融資的企業數量來看,目前獲得融資的玩家並不多,資本市場表現的活躍度不高。從融資輪次來看,大部分融資仍然集中於早期融資,目前上市的企業僅掛牌新三板的資料堂一家(不考慮科技公司內部孵化的基礎資料服務商)。人工智慧基礎資料服務毛利率普遍較高,但為保持與人工智慧市場前沿演算法的匹配,需要投入大量研發成本進行資料處理平臺與工具的研發升級,因此對融資仍有較強依賴。
人工智慧基礎資料服務行業商業模式
生產、獲客、部署合力驅動發展
人工智慧基礎資料服務行業是典型的To B型業務,商業模式較為穩定。在生產方面,主要通過自建標註基地或標註團隊、搭建眾包平臺、採購供應商外包服務(BPO)等模式實現生產運營,大多企業主要採取眾包與外包模式,百度資料眾包、倍賽等企業自建標註基地或全職標註團隊,對於培訓較高素質工作人員、完善團隊管理有積極意義;在獲客方面,主要通過口碑傳播、學術會議與展會及代理渠道等模式進入市場,對銷售人員熟悉市場趨勢、客戶需求的要求較高;在實施交付方面,有私有化部署和公有部署兩類,能夠較為靈活地應對客戶對資料安全、交付週期與成本的個性化需求。
人工智慧基礎資料服務市場規模
2025年市場規模將突破百億,行業年複合增長率為23.5%
2018年中國人工智慧基礎資料服務市場規模為25.86億元,其中資料資源定製服務佔比86.2%,資料集產品佔比12.9%,其他資料資源應用服務佔比0.9%;行業年複合增長率為23.5%,預計2025年市場規模將突破110億元。從整體增速來看,行業發展較為穩健,下游人工智慧行業持續發力將形成長期利好。
人工智慧基礎資料服務細分結構
純標註服務為主體,由供應商提供服務佔79%
2018年中國人工智慧基礎資料服務市場以語音、視覺、NLP領域的標註服務為主,同時提供採集與標註服務佔比較少,這是由於生資料由需求方提供的情況較多,但這並不意味著市場中資料採集需求弱,相反,人工智慧技術落地後產生了大量新興垂直領域的資料需求,然而這些資料採集難度大,能夠提供相關採集工具和服務的供應商將獲取競爭優勢。市場供給方主要由企業自建或直接獲取外包團隊的形式以及供應商組成,又以供應商為行業主要支撐力量,佔比79%。
人工智慧基礎資料服務市場格局
行業將提升至較高集中度,CR5佔26%市場份額
目前人工智慧基礎資料服務行業CR5佔26%市場份額,行業集中度較為適中,既非寡佔型市場也非充分競爭市場,這一方面是由於百度資料眾包、海天瑞聲、資料堂等企業進入市場較早,積累了較多客戶資源,另一方面則是由於下游企業之前多采用公開資料集訓練模型,對資料的高精度要求由來尚短,受生態傳導效應滯後影響,市場門檻還不顯著,資金與研發實力較為薄弱的中小企業還有較強的發展土壤。然而未來,隨著下游企業發展壯大,直接使用外包團隊成本低廉、資料安全可控性強,一些基礎性需求將由下游企業自給自足,外部的資料服務商現有的存量市場面臨下降,因此必須承擔高難度、前沿獨特性任務,這就要求其自身投入高精度、專業化資料處理工具的研發和人工智慧演算法基礎研究,以把握客戶需求,開拓增量市場,因此資金與研發實力成為較高行業門檻,同時受近年資本市場冷卻影響,一批中小型廠商面臨業務收縮,再者部分廠商如倍賽開始在業內併購,參考海外資料服務市場發展情況(海外行業巨頭Appen多次併購其他企業),併購也將成為市場趨勢,多種因素疊加影響下,行業集中度將提升。
人工智慧基礎資料服務場景分析檢視基礎資料服務市場現狀
人像與OCR資料是檢視基礎資料服務的主流
在不考慮自動駕駛的前提下,2018年檢視基礎資料服務市場達到6.6億元,人像與OCR資料是檢視基礎資料服務的主流,尤其人像資料佔市場的42.9%。OCR佔27%,其他的人體識別資料、商品識別資料、工業質檢資料、醫學影像資料及其他新場景資料等較為分散,合計佔市場30.1%。
檢視基礎資料服務技術趨勢
針對演算法研發方向判斷資料需求,挖掘增量市場
按照資料使用方向,可以劃分為新演算法模型搭建與研發、在已有演算法基礎上增加新模組、解決方案交付過程中定製優化等三類,其中新演算法模型搭建與研發和在已有演算法基礎上增加新模組型別的資料需求是可以根據相應機器視覺演算法的前沿研發方向來判斷預測的。例如,就智慧城市場景而言,針對漢族的人臉識別和視訊結構化已較為成熟,在實際應用場景中還需針對少數民族和其他人種進行優化以提升整體演算法準確率,此外,跨鏡追蹤成為場景研發熱點,相應的跨攝像頭資料如何標註對演算法訓練也會產生較大影響,再及,深度相機可以幫計算機讀懂三維立體的監控視訊,還能夠較好地解決複雜光照條件下檢視資料採集的問題,也將在未來成為重要的研發方向,綜上,多民族、多人種資料、跨攝像頭資料、3D資料的採集與標註服務將為檢視基礎資料服務市場的發展帶來增量空間,OCR、手機、零售等其他領域也同理可針對演算法研發方向挖掘增量市場。
自動駕駛基礎資料服務應用場景
演算法尚未成熟,對資料有長期需求,且缺口仍在
L3級別以上的自動駕駛系統主要有感知、定位、預測、決策和控制五部分,其對於計算機視覺技術的需求度遠高於ADAS,系統需要對雷達、攝像頭等感測器採集的點雲和影象資料進行抽取、處理和融合,構建車輛行駛環境,為預測和決策做依據,這對於演算法的準確性和實時性有極大考驗。目前自動駕駛的視覺技術主要應用有監督的深度學習,是基於已知變數和因變數推導函式關係的演算法模型,需要大量的標註資料對模型進行訓練和調優。在世界級無人駕駛大賽中,主辦方往往提供近億張圖片、數十萬張標註圖片供參賽團隊訓練使用;在路測或真實道路駕駛時,如人車混雜、分佈稠密、行為多變等複雜環境問題更需要海量的真實路況資料不斷對演算法進行優化,才能保障無人駕駛車輛正常可用。現在國內自動駕駛飛速發展,AI公司、科技公司、高精地圖廠商、車廠等參與者眾多,該領域的資料採集和標註需求已經成為AI基礎資料服務的主要專案之一,且自動駕駛演算法應用仍待優化,資料需求缺口仍在,市場遠未飽和。
自動駕駛基礎資料服務市場現狀
2025年採標規模將超24億,科技公司和車廠是主要需求方
自動駕駛基礎資料主要是道路交通影象、障礙物影象、車輛行駛環境影象等,需求方以科技公司、汽車廠商和高精地圖廠商為主,2018年自動駕駛行業基礎資料服務規模為5.76億元,預計2025年將超24億元,三方規模佔比分別為49%、47.2%和3.8%,行業資料總任務量超一億張,2D影象標註與3D點雲標註任務量基本為2:1。其中高精地圖廠商演算法較為成熟,資料自動化標註程度可達90%左右,外包需求較少;以百度、圖森未來為代表的自動駕駛科技公司一直是該領域基礎資料服務的主要買方,平均各家演算法訓練影象資料累積需求在千萬級以上,隨著落地專案程序加快,將會有更多細分場景的需求產生;近幾年,汽車廠商在ADAS和自動駕駛方向的投入明顯,、吉利等廠商年投入均可達數億元,對於資料的採集和標註需求也逐年增加,預計未來3年中,汽車廠商將成為需求主力。
智慧互動基礎資料服務市場現狀
遠場語音互動成為主流需求,中文類資料仍佔據市場核心
2018年語音互動相關資料服務市場規模達到13.5億元。語音互動主要分為近場互動、中場互動和遠場互動,以智慧影音家居、可互動機器人和車機為代表的中遠場互動類資料服務需求合計佔到智慧互動基礎資料服務的68%,成為當前智慧互動基礎資料服務的主流需求,因此針對遠場語音互動的低噪聲環境服務具有較強發展潛力和議價能力。在服務語種上,中文(含方言)服務佔據71%的市場份額,外語種資源相對稀缺,採集和標註難度較大,成本相對更高,目前佔29%的市場份額。
智慧互動基礎資料服務技術趨勢
實現跨語音識別、語義理解的複合資料標註
目前企業在智慧互動系統的建設中,對單純的語音識別或合成方面技術能力相對較完善,而在上下文理解、多輪對話、情緒識別、模糊語義識別、意圖判斷等方面的研發痛點更強,根據智慧互動系統演算法的發展,迭代並設計符合演算法需求的NLP資料產品,有助於從資料層面推動智慧互動系統的發展。特別的,對話系統的效果對標註資料的品質和規模依賴性很強,但目前受標註資料和模型能力的雙重製約,對話流程還無法對語音、語義整個互動流程打通,而實現跨語音識別、語義理解的複合資料標註可以幫助減輕語音資訊與文字資訊之間的資訊誤傳導,對整個對話流程效果增強能夠產生積極影響,將增加智慧互動基礎資料服務探索的可能性。
人工智慧基礎資料服務需求分析人工智慧基礎資料服務客戶定位
客戶分為AI公司、科技公司、科研機構、行業企業四類
從需求方來看,AI公司和科技公司佔主要份額,AI公司更聚焦於視覺、語音等某一型別的基礎資料服務,而科技公司結合集團優勢,向人工智慧整體發力,不同部門會產生多型別資料需求,科研機構需求佔比較小。此外傳統意義上的行業企業,如汽車廠商、手機品牌商、安防廠商等傳統企業圍繞自身業務進行技術拓展,也開始產生AI基礎資料需求,並且量級逐漸增大,未來將釋放更多市場空間。
人工智慧基礎資料服務核心需求型別
AI應用三大階段,對基礎資料服務產生差異化需求
企業應用人工智慧演算法要經歷研發、訓練和落地三個階段,不同階段對於AI基礎資料服務也有差異化需求。研發需求是新演算法研發拓展時產生的資料需求,一般量級較大,初期多采用標準資料集產品訓練,中後期則需要專業的資料定製採標服務;訓練需求是通過標註資料對已有演算法的準確率、魯棒性等能力進行優化,是市場中的主要需求,以定製化服務為主,對演算法的準確性有較高要求;落地場景的業務需求中演算法較為成熟,涉及的資料採集和標註更貼合具體業務,如飛機保養中的塗料識別資料等,對於標註能力和供應商主動提出優化意見的服務意識有較強要求。
人工智慧基礎資料服務需求痛點
五大需求痛點決定AI基礎資料服務商的服務標準
目前需求方在選擇資料服務時往往會遇到資料安全、採標能力、資料品質、管理能力、服務能力等痛點。對於資料安全,需求方希望基礎資料服務商有明確具體的安全管理流程,對資料傳輸、儲存,以及結項後的資料銷燬等環節比較重視。在採標能力方面,需求方演算法越來越貼近業務,希望資料服務商對於自動駕駛、工業等有一定門檻的領域有采集能力,並且能理解客戶意圖,配合標註,甚至可以提出標註建議;根據市場反應,大多數資料服務公司首次交付專案時,資料的準確率普遍偏低,都需要一到兩次的返工,故需求方對無效資料少、準確率高的公司更加青睞。對於執行效率,一般AI基礎資料服務商都能在專案週期內完成,但管理能力較弱的公司很難在兼顧多個專案時做到精力集中、高品質地服務客戶,同時執行團隊的素養與信譽也是重要影響因素。服務意識是一項軟實力,需要AI基礎資料服務商能夠積極配合、快速響應需求方要求。
人工智慧基礎資料服務趨勢及建議人工智慧基礎資料服務發展建議
企業由被動執行向主動服務的意識躍遷
單純依據客戶各個專案的訴求進行資料採集和標註屬於被動執行,主觀能動性低、行業邊界有限,各家公司的產品和服務趨於同質化、競爭呈膠著狀態,制約著AI基礎資料服務的發展。通過對需求方的研究,發現除安全性、品質、效率等核心關注點之外,越來越多的需求方對資料服務公司產生了主動服務的需求,希望資料公司能夠更懂演算法技術、更懂需求場景,甚至能參與到演算法的研發中來,給出資料採標方面的優化建議,這也為資料服務商形成差異化競爭帶來了契機,尤其是在AI落地階段,在垂直場景中能夠形成一套集調研、諮詢、設計、採集、標註為一體的AI基礎資料整體解決辦法,將在收入和業務邊界上實現突破。