分析師結論計算機視覺不是一個新技術,它發軔於上世紀60年代,在深度學習的推動下走向大規模應用。2012年,影象識別準確率大幅提升後,計算機視覺商用的技術基礎開始穩固。也就是從這個時間點開始,計算機視覺開始走向實用場景落地;儘管發起於美國,但在實際落地應用中,中國已經成為面部識別技術最大的消費者和提供者,中國公司成為一股不容忽視的力量;計算機視覺在中國的場景落地中,很大一塊蛋糕就是安防(佔比近70%)。得益於國家在平安城市、智慧交通和雪亮工程等計劃的推動,安防市場在十幾年保持著快速增長,到 2018 年已經達到 7183 億元市場規模,而 AI軟硬體+安防目前的市場規模只有 135 億元。計算機視覺和安防的結合,還有非常廣泛的增長空間;如果說安防是計算機視覺最大的落地場景,那麼新零售則是最有潛力的場景之一。計算機視覺公司在安防等重要的市場面臨著幾乎紅海化的競爭,零售場景尚未形成巨頭。除了安防,在金融、廣告營銷、新零售、醫療、教育等領域,計算機視覺技術都起到了提升效率,降低成本的作用。這也催生了深耕不同垂直領域的公司;不同於網際網路、移動網際網路的全行業“二八法則”,計算機視覺公司的“二八法則”體現在垂直場景中,以安防場景為例,儘管有廣泛的市場前景,但競爭也很激烈。因此,找準場景,打深井,是創業公司的破局之道。一、計算機視覺概念及主要技術
1、概念:
作為人工智慧的重要分支之一,計算機視覺是指通過計算機、攝像機或其他相關裝置模擬生物視覺,通過電子化的方式感知和理解影象,以達到分析影象和得出結論的目的。
如果將智慧分為通知、算知、感知、認知、預知、決知六個層面的能力,那麼,計算機視覺的出現,則極大地提高了感知和認知力。
(機器視覺同樣是人工智慧快速發展的分支,機器視覺與計算機視覺在基礎理論上、技術和應用上有很多重疊。相比之下,機器視覺更加側重於工業領域的視覺研究,主要用於檢測和測量。嚴格起見,本報告將計算機視覺與機器視覺區分開來。本章主要研究計算機視覺。)
2、主要技術介紹:
以人眼為類比,人的視覺系統主要解決物體識別、物體形狀與方位確認以及物體運動判斷三個問題。那麼,代替人眼的計算機視覺技術,也主要包括以上三類。按照此類別,計算機視覺相關技術主要包括:影象分類、物件檢測、目標追蹤、語義分割、例項分割等技術,人臉識別、影象識別、無人駕駛中的路況識別等都是在基礎技術上的重組與應用。
影象分類:給出已經被標記為單一類別的影象,從而對一組新的測試影象的類別進行預測,並測量預測的準確性。
物件檢測:識別影象中的物件,通常包括將各個物件輸出邊界框,並打上標籤。
目標追蹤:在特定場景跟蹤一個或者多個特定物件的過程。
語義分割:計算機視覺中的分割是將整個影象分成一個個畫素組,進行標記和分類,語義分割試圖在語義上理解影象中每個畫素的角色,包括人、道路、汽車、樹木等。
例項分割:例項分割將不同型別的例項進行分類,不僅需要將不同的物件進行分類,還要確定物件的邊界、差異以及彼此之間的關係。
二、計算機視覺的發展歷史、現狀與市場規模1、計算機視覺發展歷史:
計算機視覺最早歸類於模式識別(Pattern Recognition),1963 年,MIT 的博士 Larry Robert 發表論文——《Machine Perception of Three-Dimensional Solids》,該論文將計算機視覺從模式識別中獨立出來,當時的計算機視覺研究主要是從影象中提取立方體等多面體的三維結構,並對物體形狀及其空間關係進行描述。
20世紀70 年代,一位青年學者David Marr 提出 Marr 視覺計算理論,標誌著計算機視覺理論框架初步形成。1982 年,Marr 的《視覺》一書面世,計算機視覺成為一門獨立的學科,隨後,包括主動視覺理論、分層重建理論框架等新理論不斷出現。
圖為《視覺》封面
2006 年 Hinton教授在《科學》發表了對於深層神經網路的訓練方法,開啟了深度學習的時代。2009年,用於視覺物件識別軟體研究的大型視覺化資料庫ImageNet 建立,2010年以來,ImageNet專案每年舉辦一次軟體比賽,由軟體程式來分類檢測影象和物體。
圖為ImageNet 發起人之一——李飛飛
2012 年以後,隨著深度學習的爆發,ImageNet 的識別率也在不斷提升。
以往,傳統方法需要先手工設計特徵,然後用分類器分類。其中,手工設計特徵需要相關領域足夠的經驗和積累,對於提取的特徵還需要進行大量除錯工作,不同特徵對應的演算法也不同,組合起來,通用性差,進展緩慢且效果不佳,難以形成大規模商用。
而深度學習方法則是將特徵學習和分類器學習整合到一個網路中,深度網路在大資料中自行學習特徵並分類,可以增強通用性,極大提升效率。
深度學習出現後,計算機視覺的主要識別方式發生重大轉變,自學習狀態成為視覺識別主流。
到2017 年,ImageNet影象識別的錯誤率已經降低至 2.25%,人臉和物體識別的準確度都已經超過人類。計算機視覺已經具備商業化的技術基礎。
2、計算機視覺現狀與市場規模:
計算機視覺作為人工智慧的重要分支,在人工智慧市場一直佔有較高的比重,根據中國信通院報告資料,2017年中國人工智慧市場中計算機視覺佔比 37%。
國家雖然沒有制定專門針對計算機視覺的政策,但在《新一代人工智慧發展規劃》中明確指出,將大力發展以計算機視覺為主要技術支撐的人類視覺能力感知獲取、真實視覺感知以及智慧城市的安全影像監控等。
在政策鼓勵和技術基礎支撐下,計算機視覺行業逐步實現了從基礎層到應用層的打通,開始涉足安防、金融、醫療、教育等領域,提供安防及監控、無人零售、人車識別等技術解決方案。
根據前瞻產業研究院對 CAICT(中國資訊通訊研究院)、Ganter、CBInsights 等機構釋出的資料彙總,2017 年中國計算機視覺市場規模的增速都超過了 110%。樂觀估計 2020 年,中國計算機視覺市場規模有望突破 1000 億;中性預測 2020 年中國計算機視覺市場規模在 700 億元左右。
四、計算機視覺的場景應用普通使用者對於計算機視覺的感知,可能要歸功於刷臉識別、換臉App ZAO等軟體產品,對於廣大公眾而言,資料隱私問題一直備受關注。
從行業角度,由於極大提升了機器的影象感知與認知能力,同時為認知和決策提供了重要依據,計算機視覺的應用場景十分廣闊。在智慧安防、自動駕駛、廣告營銷、金融、醫療影像、消費電子等領域,都可以看到其應用價值。
1、智慧安防:
說到智慧安防,一個流傳甚廣的例子便是逃犯參加張學友演唱會被抓。在萬人的明星演唱會期間,總有一些犯罪嫌疑人在安檢過程中,難逃人臉識別系統的法眼,被精準識破。簡言之,系統會事先儲存在逃人員的影象資訊,當逃犯出現在布控範圍,被系統捕捉到後,系統則將其與後端資料庫快速比對,比對成功後,就會發出警告。這就是人臉識別等計算機視覺技術在安防中的應用。
圖為逃犯在張學友嘉興演唱會被抓,截至2018年底,張學友演唱會已抓捕80餘逃犯
在計算機視覺的行業應用中,安防佔據了 67.9% 的市場份額。這離不開政府對公共安全領域安防工作的重視。2005年,國務院釋出《關於深入開展平安建設的意見》,“平安城市”計劃成為中國視訊監控行業發展的主要推動力。在該計劃下,中國的安防監控經歷了十幾年的快速增長。
計算機視覺在安防行業主要集中在人臉識別、車輛識別、 行人識別、行為識別等方向。
傳統安防存在著耗費人力物力、動態管理不足,缺乏關聯分析等問題。計算機視覺的出現,解決了上述問題,它將以往人力查閱需要 30 天完成的監控,通過不到 5 秒的視訊分析技術解決,帶來了公安處理案件精度和效率的提升。安防系統也實現了從傳統的被動防禦到主動判斷和預警的智慧防禦升級。
目前行業內主要有三類公司,第一類是以海康威視、大華股份為代表的,從後端裝置和前端裝置生產起家的傳統安防企業;第二類是以 AI 演算法為基礎逐漸向軟硬體和解決方案拓展的AI 科創企業,代表公司有商湯科技、曠視科技、雲從科技等;第三類是華為等大型網際網路廠商。
根據權威市場研究機構 IHS Markit 2018 年 7 月釋出的《2018 全球視訊監控資訊服務報告》,2017 年,海康威視市場份額以 37.94% 佔據全球第一,大華股份排名第二,佔比17.02%,宇視科技則以 2.8% 的市場份額佔據全球第六。而在國內市場,海康、大華、宇視科技、蘇州科達幾家公司的市場份額總佔比已經超過了 60%。
2、智慧駕駛:
在自動駕駛L4階段(高階自動化階段),高階輔助駕駛系統(ADAS)需要在實時的路況中回答以下四個基本問題:
(1)車在哪?
(2)車周圍有什麼?
(3)下面會發生什麼?
(4)車該怎麼做?
每個問題都離不開計算機視覺。換句話說,計算機視覺是智慧駕駛技術中的一環。
無人駕駛技術鏈非常長,但基本可分為三個階段:感知、決策和控制。計算機視覺技術主要應用在無人駕駛的感知階段,主要通過高階輔助駕駛系統(ADAS)來實現,其基本原理大致如下:
使用雙目視覺系統獲取場景中的深度資訊,用於進行後續的影象語義理解,並探索可行駛區域與目標障礙物;通過視訊估計每一個畫素的運動方向與速度;對各種車輛、行人等進行檢測和追蹤;對整個場景的理解。包括道路線檢測,並將場景中的畫素打成標籤;同步地圖構建與定位技術,即 SLAM(Simultaneous Localization and Mapping)技術。在國際上最大的 ADAS 企業為 Mobileye,佔據了 75%的市場份額,國內提供解決方案服務(演算法)的公司主要包括商湯科技、曠視科技、虹軟科技等;在晶片方面,森國科、地平線、寒武紀等廠商等都發布了智慧駕駛相關的晶片產品。
3、新零售:
想象一下,當你走進一家門店,從你進門的那一刻起,你的人臉就被識別出來,顯示你是第幾次光顧。在購買過程中,你的購買行為被實時記錄下來,系統將通過你的行為建立你和商品的關聯,而在刷臉結賬的時候,你的人臉則顯示著消費金額。未來,計算機視覺賦能的新零售將潛移默化地改變我們的消費習慣。
如果說安防是計算機視覺最大的落地場景,那麼新零售則是最有潛力的場景之一。從供給端看,計算機視覺公司在安防等重要的市場面臨著幾乎紅海化的競爭,零售場景尚未形成巨頭。
從需求端看,線下零售市場規模龐大,存量改造需求突出。據國家統計局的資料,2018年全國線下消費品銷售總額達到 38.1 萬億元,遠高於線上的 9.01 萬億元。五年來,新開業的購物中心仍然呈現逐年上漲的趨勢。極速發展的線下零售店對前來購物的消費者知之甚少。
基於計算機視覺的智慧方案則可以幫助商場分析人流,了解使用者購買習慣與購買行為,建立商場、貨物和人的智慧連線,讓線下零售擁有和線上一樣的效率。
海外的亞馬遜率做了嘗試,在美國開了第一家無人零售店 Amazon Go,在160 平米的空間佈置了上百個攝像頭等,並配合紅外感應器與重力感應器,全程通過機器完成對使用者購物行為等的扣款。
在中國,計算機視覺在零售場景的落地主要有兩大方向,一是商湯、曠視、依圖、瑞為這類的視覺計算公司和商場、品牌方合作,另一類則是阿里巴巴、每日優鮮等基於此類技術打造的3D智慧貨櫃。
4、廣告營銷:
當你正在觀看綜藝選秀節目中,一位膚白貌美的美女旁邊突然閃現出雅詩蘭黛美白保溼精華的購買連結,你有沒有興趣點開?
智慧廣告平臺正在做這樣的事兒,他們將計算機視覺技術同視訊平臺的內容進行結合,產生視訊內的廣告位,供廣告主和代理商進行投放。
現在,廣告營銷是計算機視覺技術應用中僅次於安防的使用場景。在眾多內容平臺中,計算機視覺技術主要應用於視訊廣告中的廣告營銷,即用計算機視覺技術創新視訊廣告的生產模式,實現精準化的場景營銷。
傳統的貼片廣告和植入式的廣告通常需要在前期同綜藝節目和影視劇溝通,廣告效果的好壞取決於其收視率的高低,在廣告製作環節,則需要耗費大量時間和人力,工序繁瑣,最後呈現的效果也未必能夠同當時節目中場景貼合,CTR(點選通過率)不高。
圖為綜藝節目中嵌入的廣告
結合了計算機視覺技術的智慧廣告平臺則可以在有空餘廣告位產生時供廣告主投放,降低植入的門檻,與此同時,廣告製作的工時也極大縮短。在廣告效果上,由於和場景精準結合,創意性的廣告通常不會影響使用者的觀看體驗,廣告的點選通過率也會極大提高。
從2013年至今,中國網路視訊廣告市場一直保持平穩快速的增長,從 2013 年的不到100億元,增長到 2017 年的 463 億元,年增長率達 40% 以上。
視訊廣告的高速發展,為計算機視覺的創意營銷提供了廣闊的發展空間。Video++ 極鏈科技、影譜科技、Viscovery、Yi+、視連通、周同科技等創業公司紛紛崛起,其中影譜科技已經完成了13.6 億元D輪融資。
5、金融領域:
計算機視覺在金融領域的應用對於廣大民眾並不陌生。在銀行開卡等身份認證環節,越來越多的金融機構要求人臉認證,在一個攝像頭裡點頭、搖頭、張嘴、眨眼,你就能快速完成身份的認證。
計算機視覺在金融領域的應用主要體現在人臉識別上,伴隨著識別準確率的上升,遠端開戶、人臉支付、刷臉取款等開始被銀行和金融機構所採用。
傳統金融機構使用人工肉眼判斷、簡訊驗證、繫結銀行卡等手段進行識別認證,準確率不高,使用者體驗差,成本高。而基於人臉識別的實名認證則可以極大提升準確率,通過快速的認證速度和較少的操作保證了客戶體驗,同時相比於傳統認證方式又有成本低的優點。
目前,人臉識別在銀行等機構的應用包括 1:1 的身份核驗以及 1:N的刷臉取款、支付等。其產業鏈的環節包括:私有云部署、智慧網點改造、自助機具改造、網點 VIP 改造等。按照全國 2000 多個銀行、信用社的數量和 40萬個網點的規模計算,金融領域人臉識別的市場規模將達到數千億。商湯、曠視、雲從、依圖等人臉識別公司已經成為在金融行業應用較早且較成熟的企業。
6、消費電子:
當人臉被納入到人機互動的範疇中後,我們用人臉實現手機的解鎖開屏、App支付已經司空見慣。解鎖、支付、美顏、增強現實、立體成像等手機功能,都是計算機視覺的重要應用場景。
計算機視覺廠商和手機產業鏈的合作主要體現在兩個環節:1、在晶片環節,由 AI架構設計商獨立或者和傳統晶片廠商合作提供 AI 晶片;2、在整合環節引入專業的AI演算法提供商,提供美顏、人臉解鎖等功能。
我們可以簡單估算一下計算機視覺在手機市場的發展前景。
TSR資料顯示, 2018 年全球智慧手機攝像頭的出貨量 41.47 億顆,按照 14.049 億的全球手機出貨量計算,則平均每個手機搭載 2.95 顆。假定手機出貨量在 2020 年保持穩定,按照 90% AI 功能的滲透率和 1.05 元(資料來自紅軟科技)的攝像頭價格,那麼在 2020年,該行業的國內市場規模約為 48.85億元。
目前國內和手機廠商合作的公司有商湯科技、曠視科技以及科創板公司虹軟科技。
我們在接下來的章節中將逐一分析這幾家企業。
五、代表性企業分析國內公司:
根據國際調研機構Gen Market Insight釋出的《2018年全球人臉識別裝置市場研究報告》,2023年,中國將佔全球面部識別市場份額的45%,成為面部識別技術領域最大消費者和提供商。
1、“CV 四小龍”:
根據IDC中國的統計,2018年下半年,中國計算機視覺市場主要是由商湯、曠世、依圖、雲從加上其他小玩家構成。商湯科技佔比最高,市場份額達23%。其次是曠視科技,市場份額為20.6%。
商湯、曠世、依圖、雲從,這四家從計算機視覺起步的公司,也被業內稱為CV 四小龍。其中,商湯科技成立於2014年,最早脫胎於香港中文大學人工智慧實驗室,成立5年,共完成9輪融資,融資金額達22億美金; 曠視科技成立於2011年,2019年在港交所上市,成為 AI公司上市的第一股,估值45億美金;
雲從科技成立於2015年,它脫胎於中科院的人臉識別研究團隊,2018年,雲從科技完成了 B+輪融資,其中包括中國國新、廣州產業投資基金、上海聯升資本等地方政府基金和國有資本。與此同時,雲從科技也是唯一一家同時受邀制定人臉識別國家標準、公安部標準、行業標準的企業。這讓其成為人工智慧企業中不折不扣的國家隊。
依圖科技成立於2012年,截至2018年6月,依圖完成 2 億美元C +輪融資,估值突破150 億元。
圖為CV四小龍概況
從上圖盤點可以看到,四家公司在應用場景的落地上極其相似,都以目前比較成熟的市場——安防和金融為主,其合作伙伴上也有重疊的地方,可見四家企業競爭的激烈程度。
以曠視科技為例,曠視科技 2018 年的營收為14.17億,這同年營收近500億的海康威視、79.17億年營收的科大訊飛比還有很大差距,不過也遠遠高於虹軟科技4.58億的年營收(資料均為 2018 年)。
而在盈利能力上,曠視科技的毛利率則高於海康威視和科大訊飛,在成長性上,從2016年到2018年,曠視的營收分別為6778萬、3.13億、14.27億,複合年增長率高達358.8%,遠高於海康威視的增長速度。這也能解釋為何資本市場願意不斷投資給以曠視為代表的計算機視覺公司。
面對同質化的市場競爭,四家公司都往產業的上下游延展、打通。比如,在最近的安博會上,依圖就重點展示了雲端AI晶片“求索”的落地,曠視則重點推出城市物聯網作業系統,推動其在更多場景的落地,商湯也提出智慧城市作業系統,希望打通業務需求與模型生產的閉環,並協同雲、邊、端全技術棧的能力,滿足智慧城市全場景應用的技術需求。
2、“海大宇”:
從裝置生產起家的傳統安防企業也一直在積極擁抱深度學習和計算機視覺技術。典型代表就是海康威視、大華股份、宇視科技,三者被業界稱為“海大宇”。
其中,海康威視成立於2001年,2010年在深圳中小企業板上市交易,總市值為3017億元 ,大華股份成立於2001年,2008年在深圳中小企業板上市交易,總市值為479億元,宇視科技成立於 2011年,2017年以37 億人民幣 100% 的股權被千方科技收購,與千方科技完成智慧安防與智慧交通的整合。根據2018 年財報的年營收狀況可以看出,三家公司在安防市場擁有行業領先的地位,其中,海康威視更是其中的龍頭企業,在全球的視訊監控市場佔有 22.6% 的市場份額。前不久,美國商務部產業安全域性(BIS)把 8 家中國科技企業加入 “實體清單”,海康威視、大華股份赫然在列,一定程度上反應了其在海外市場的佔有率。
不過,從營收的同比增長率來看,三家公司從2012年到2018 年,都出現了增長率的下降。這跟商湯、曠視、華為等企業進駐市場,搶佔份額不無關係。
在盈利能力上,從三家公司的毛利率來看,海康威視的盈利能力是最強的。
而我們將2018 年海康威視的毛利率和同期的人工智慧其他公司——科大訊飛、曠視科技、虹軟科技相比,可以發現,海康威視的毛利率卻是最低的,而提供智慧手機AI解決方案的虹軟科技則以 94.29% 的毛利率遙遙領先。這可能跟傳統安防企業本身的硬體成本有關。
現在,海康威視正在打造人工智慧生態圈——AI Cloud,希望吸引更多開發者和客戶使用。
3、BAT:
在巨大的市場面前,自然少不了巨頭的身影。利用資料優勢和豐富的應用場景,BAT通過建立研究院、收購投資、推出相關業務等方式,進駐新賽道。
百度在 2013 年成立百度深度學習研究院,2014 年將斯坦福大學人工智慧實驗室主任吳恩達招致麾下,展開了語音、計算機視覺、機器學習等多領域的研究。
2018 年,百度將包括人臉識別、文字識別、影象稽核、影象識別等五大類、58項基礎能力全線開放。據媒體報道,共有 20萬的開發者在使用百度的計算機視覺能力。
作為補充,百度在2017 年還全資收購了專注機器視覺軟硬體解決方案的美國科技公司 xPerception,將其核心團隊納入百度深度學習研究院,加強視覺定位與構圖的研發。
在產業落地上,百度的一大重要落地應用就是自動駕駛汽車專案——Apollo,隨著Apollo Robotaxi 在長沙的落地,百度的自動駕駛從以往的封閉路段的測試,真正進入開放道路上的商業化載人應用階段。
阿里巴巴在 AI 的佈局則是以雲端計算為基礎,從 2015 年開始,阿里雲陸續推出 AI 產品,包括語音識別、影象識別、視覺識別等領域上百款細分產品,適用於數百個場景。
2017年 10月,阿里巴巴宣佈成立全球研究院——達摩院。其研究領域涵蓋量子計算、機器學習、視覺計算、晶片技術等多個領域。
在資本佈局上,“CV四小龍”中的商湯科技、曠視科技、依圖科技背後都站著阿里巴巴的影子。在投資後,阿里巴巴旗下的業務也和獨角獸們展開了合作。
騰訊的 AI 研究更多是和自身業務的結合。騰訊的 AI 研究部門有:技術工程事業群旗下的騰訊 AI 實驗室、社交網路事業群旗下的騰訊優圖實驗室、還有微信事業部旗下微信模式識別中心以及微信和香港科技大學的聯合實驗室。
除了將技術研究和自身遊戲、社交、內容等業務結合,騰訊的幾大實驗室還向微眾銀行、公安廳等零售、醫療、工業等領域輸送 AI 能力。
國際公司
1、谷歌:
谷歌是人工智慧最無法繞開的巨頭。人工智慧第一次為福斯所熟知就得益於谷歌旗下 Alphago與南韓圍棋選手李世石的人機大戰。谷歌於2015 年開源的 TensorFlow 已經成為機器學習的主流工具,截至2018 年已經被下載 3000萬次。
谷歌在人工智慧的研究世界領先,計算機視覺領域同樣如此。2018 年穀歌釋出了面向開發者的 Cloud AutoML,目前支援計算機視覺模型,開發者只需要上傳一組圖片,匯入標籤或者 App 建立,就能自動生成一個定製化的機器學習模型,在一天內訓練完成。
谷歌還推出了計算機視覺模型——MobileNetV2和 MorphNet ,其廣泛應用於學術界和工業界。後者提出了一種有效的方法來學習深層網路的結構,從而在計算資源有限的同時,改進影象和音訊模型上的效能。
2、亞馬遜:
提到亞馬遜的人工智慧,你的第一個反應可能是亞馬遜旗下搭載 Alexa 語音助手的Echo智慧音箱,該音箱以每年千萬的銷量牢牢佔據美國智慧音箱市場的第一名,市場佔有率高達 70%。但你可能不知道,亞馬遜在計算機視覺領域同樣佈局良久。
最明顯的一個例子是亞馬遜在 2016 年推出的 Amazon Go 無人零售店,這家零售店用攝像頭代替了店員,顧客用手機掃描後進店,攝像頭則追蹤顧客拿走的貨物,並自動進行結算。Amazon Go 目前在美國只有四家分店,三家在西雅圖,另一家在芝加哥。亞馬遜沒有透露這種識別的準確率,不過亞馬遜在無人零售的探索,開創了計算機視覺場景落地的新空間。
圖為AmazonGo線下無人零售店
在後端物流市場,計算機視覺也被用來提升倉儲物流效率。往常,物流人員將物品放到貨架上,需要掃描下物品和貨架,完成其定位,以便找到該物品的位置。現在,計算機視覺和機器學習引入後,工作人員只需將貨品擺放到相應的位置,電腦記錄下其位置,機器人將順利找到它們。
除了在自身業務中用到計算機視覺技術,亞馬遜還將Amazon Go、Alexa 等人工智慧和機器學習技術集合亞馬遜雲——AWS中。作為基於雲端計算的儲存和伺服器業務,AWS 已經成為很多公司和開發者的標配。
3、微軟:
微軟的人臉識別技術為福斯所熟知得益於2015 年火爆社交群的應用——How-Old.net ,使用者通過上傳自己的自拍照,就可以看到軟體猜測出的年齡。該應用是 微軟Build 2015 開發者大會的衍生品,據說由兩個工程師用兩天的時間,基於微軟Azure 雲內認知服務 Face API等 API 識別照片中的人臉和特徵,實現了整個應用的功能。小小產品背後,體現了微軟在計算機視覺領域的技術積累。
圖為How-Old.net官網
微軟在上個世紀90年代就成立了人工智慧實驗室,研發語音識別和計算機視覺技術,發表論文數百篇。2015年,微軟亞洲研究院的研究員們基於殘差學習,將深度提升到152層,憑藉深度神經網路帶來的準確識別能力,微軟在 ImageNet大規模視覺挑戰賽中以絕對優勢獲得影象分類、影象定位以及影象檢測三個主要專案的冠軍。
How-old.net 流行之後,微軟開始推出其他基於計算機視覺技術的應用,包括幫你找到和你長得相似的明星的應用 CelebsLike、鑑別狗狗品種的應用Fetch、識別表情並用相應emoji表情代替的FaceHero等。2015年5月初,微軟正式公佈了牛津計劃(現在已融入微軟認知服務中),將基於雲端的與計算機學習相關的智慧 API、SDK和相關的服務提供給開發者。
除了將技術產品化,微軟還圍繞超十萬加的合作伙伴,將打造的AI基礎設施、技術和應用賦能給他們,從而形成一個微軟AI生態圈,並幫助合作伙伴實現AI的普及化。
4、Facebook:
在社交巨頭Facebook上,每天都會產生百億條資訊,數十億張新圖片。這為計算機視覺研究提供了巨大的資料量和演算法基礎。
Facebook 在 2014 年成立人工智慧研究小組(FAIR),研究成果不僅獲得多項計算機視覺頂尖會議的論文獎,也同樣支援著無數 Facebook的系統,例如幫助視障人士自動替代文字和檢測劣質內容的工具;Facebook上的AR功能和Portal中的智慧相機也起源於FAIR 的研究,目前,這項研究仍在繼續,但重點轉移到了視訊領域(https://github.com/facebookresearch/DensePose) 將幫助系統理解視訊內容和照片。Facebook 還將眾多模型進行開源,幫助眾多開發者進行影象識別等的研究。
除了內部研究,Facebook還通過投資和收購的方式佈局相關技術。據不完全統計,Facebook從2012年開始,以投資或收購了7家計算機視覺相關的公司,幫助其在視訊、直播、電商、VR等業務的技術優化。
總結如前所述,在計算機視覺的商業具備了技術基礎、領先公司將研究開源之後,中外各家公司在技術上的區別已經在縮小。當前所面臨的大考,已經變成如何將技術在各個場景中進行落地,背後則是各個玩家對於垂直細分領域的理解與耕耘,這是一場考驗綜合實力和耐力的持久戰。在接下來的報告裡,我們將著重分析安防、零售、房地產等具體場景的智慧化革命。