作者 | © 行者
編輯 | © 蛋總
2018年5月15日,那個宣稱“因擔心新產品會把人嚇尿而要求錘粉穿紙尿褲來參加釋出會”的老羅,如願以償在能容納10萬人的鳥巢,端出了自己心目中的“辦公神器”——錘子TNT。
但這場引人關注程度頗高的釋出會,事後被很多人看作是老羅做產品中的“麥城”之一。尤其是他在現場為大家演示TNT工作站中語音控制以及輸入功能時,頻繁呼叫卻沒有任何反應或者系統錯誤頻出,已經成為老羅搞的釋出會中為數不多的“翻車梗”。
不過,老羅一直被業內認為是個爺們。會後他不停地向各個合作方道歉,認為是自己產品經理的技術整理和準備程度不夠,“現場沒有把合作方最優質的技術展現出來”。
而就在這場“翻車”的釋出會結束兩年六個月後,當時向錘子手機與TNT作業系統提供語音服務的雲知聲,正式向科創板提出了IPO申請。
據說該訊息傳出時,正在認真直播帶貨還債的老羅,在私下飯局上也對曾經的合作伙伴表示了恭喜。
但後面就沒有然後了。
2020年12月13日,雲知聲IPO檔案公佈還不到一個月,科大訊飛在投資者交流平臺上表示,雲知聲關於其語音病歷市場、家電智慧語音模組領域佔有率高達70%的表述嚴重失實。科大訊飛對投資者回復中稱,無論是在深度、廣度還是營收規模上,科大訊飛在醫療、家電語音應用領域的智慧語音應用,均遠超雲知聲。
這就是所謂“科大訊飛打假事件”的開始。而這條新聞爆出後,業內對雲知聲上市的前景紛紛不再看好。
有意思的是,就在這半年多的時間內,與雲知聲和科大訊飛同處AI語音賽道的其他幾家獨角獸,紛紛探尋資本市場。
最新的訊息顯示,以語音通訊和智慧語音識別為賣點的PaaS企業容聯雲,在2021年2月9日成功赴美上市,上市當日收盤股價上漲200%。再加上最近被爆炒火熱的Clubhouse,被證明背後的語音服務提供商就是2020年6月在美國上市的聲網。
種種跡象表明,AI智慧語音這個賽道,當下正迎來一場混戰。
1、“被硬剛”的雲知聲據官網介紹,雲知聲靠語音起家,醫療語音互動系統是其“成名作”。雲知聲宣稱,其語音識別率為97%至98%。
在提交IPO申請前,雲知聲完成了8輪融資,投資方包括啟明創投、高通創投、浙大聯創投資、京東、奇虎360、中金公司、東方證券和中國網際網路投資基金等,上市之前的估值已超過12億美元。
從數額上來看,雲知聲智慧語音互動產品2017年至2019年與2020年上半年的營收分別為5926.07萬元、1.56億元、1.37億元、2383.73萬元,先增後降。雲知聲表示,該板塊收入下滑主要原因是智慧語音模組出貨量大幅下降。
2020年上半年,其實現營收8468.93萬元,淨虧損1.06億元。
此次爆發爭議的,就是招股書中關於市場佔有率的問題。雲知聲援引灼識諮詢資料稱,其透過與格力等白電巨頭合作,市場佔有率高達70%;在智慧醫療領域,其語音病歷錄入系統優勢地位顯著,市場佔有率高達70%,病歷質控系統逐漸發力,目前市場佔有率約30%。
2020年12月11日,有投資者在互動平臺就此向科大訊飛提問,科大訊飛在回覆投資者提問時表示,雲知聲關於其語音病歷市場佔有率高達70%的表述嚴重失實。同時,科大訊飛還從覆蓋醫院數量、收入及公/私有云等維度列舉詳細資料對比,以佐證其觀點。
科大訊飛表示,以覆蓋醫院數量來比較,雲知聲在2017年至今年上半年的四個報告期分別為10、36、91和112家,科大訊飛同期分別為11、77、264和489家。而從收入看,雲知聲上述時期智慧語音病歷收入分別為170.96萬、926.39萬、1628.91萬和895.48萬元,科大訊飛同期分別為664.28萬、2937.27萬、3554.48萬和3571.11萬元。
因此,科大訊飛認為雲知聲的市場資料有問題,對此雲知聲並未做出迴應。
終止IPO後,雲知聲總經理黃偉業對外透露表示要“先發展業務,再看看”,他認為停止稽核主要是公司業務發展的考慮,希望抓緊時間把業務做好。但云知聲並不會放棄IPO,未來會適時考慮重啟IPO的推進計劃。
2、科大訊飛的強勢這場風波中的另一個參與者科大訊飛,其實在AI語音賽道,是一個讓其他競爭者苦苦追趕的“領頭大哥”。
1999年就已經進入這個領域的科大訊飛,很多語音識別的行業標準都是這家公司參與制定的,整個行業的發展路徑也基本上遵循著這家企業的技術實現通道。
關鍵是,結合10年後出現的AI演算法,科大訊飛在語音識別和相關領域的科研投入非常大,所獲取的成果和專利,是其他行業企業無法比擬的。
天眼查相關資料顯示,科大訊飛在智慧語音方面的專利超過1900件,軟體著作權超過673件,這兩個數字不僅讓同行無法比擬,還遠高於此次風波中的雲知聲——雲知聲目前擁有594件專利和57件著作權。
因此,業內其實有個說法:在語音識別領域想要後來者居上的玩家,若無跨越式突破能力,最好別輕易入局,畢竟科大訊飛早已築起專利牆。
另外,與越來越多參與這個行業的企業開始尋找細分市場來做突破不同,科大訊飛基本上從各個方面對語音識別以及圖文識別、影片識別等方面,做了最深度的研發,並已經推出非常成熟的產品。
而財報資料顯示,截至2020年11月30日資料,科大訊飛累計覆蓋終端使用者數超過30.2億,企業應用方面,科大訊飛實現了396項B端的接入服務,已經採用科大訊飛技術的企業超過200萬家。
據艾媒諮詢《2020年上半年中國人工智慧產業專題研究報告》顯示,在智慧語音賽道,科大訊飛整體實力遠超同行業其他競爭者,領跑第一梯隊,而後是百度、阿里雲和思必馳等。
而培育多年的B端市場現在成為科大訊飛提升自己業績的期望,也是其2020年市場拓展上升最快的板塊。這也是為什麼雲知聲IPO檔案釋出後,科大訊飛會對市場資料那麼敏感的原因。
2021年2月3日,科大訊飛召開最新財報通氣會,相關資訊顯示,2020年度科大訊飛的累計淨利潤為12.29億元至13.93億元,同比增長50%至70%。
但根據之前幾個季報和半年報的資料可以推算,扣非後的真正淨利潤資料會比較低,應該在兩億元以內。畢竟,三季報時科大訊飛實現歸屬於上市公司股東的淨利潤和扣除非經常性損益的淨利潤分別為5.54億元和8395.23萬元。
這在一定程度上說明,AI智慧語音這個賽道,目前還沒有一個能快速增長的商業模式,哪怕是科大訊飛也還是處於業務的探索期,整個行業都還在對新的業務方向進行摸索和嘗試,這其實也意味著AI語音行業蘊藏著新機會。
3、競爭者的變通2020年6月在美上市的聲網,以及剛剛完成上市的容聯雲,被業內人士認為是“聰明的企業”。
一方面,它們並沒有在科大訊飛、百度和搜狗等競爭對手聚焦的語音識別賽道上,花費太大的精力。畢竟目前在這個領域,不管是商用的會議記錄識別還是醫用的病歷錄入等細分市場,還處於早期的開發階段,成熟度並不高。
另一方面,掌握語音傳輸和識別技術的聲網和容聯雲,看到了“聲音交流”在網際網路商業應用的前景。因此,與其說它們是主做語音識別的公司,倒不如說它們變成了兩個“把所有跟語音相關的能力封裝起來為第三方賦能”的平臺型公司。
這也就是這兩家公司都竭力推崇的PaaS模式。
當然,它們的重點在於語音的智慧傳輸上,如何利用最便捷的手段、用最小的流量、透過佔據最少資源的方式,將最清晰的語音傳輸到使用者的手中是它們技術追求的目標。
與騰訊會議和ZOOM不同,這兩家公司沒有自己的使用場景,而是把所有的功能都封裝成一個個的API介面,提供給第三方調取來獲取相關的能力。
而容聯雲更進一步,這個平臺還將文字圖片傳輸的能力也結合在內,可以為使用者提供類似軟體內社交的能力,例如跟其他使用者在平臺上的溝通、或者與客服的直接對話等功能。
雖然取了巧,但這兩家公司確實達到了目前中小網際網路企業發展中的一個痛點,那就是對於很多基礎的網際網路技術,初創企業急需使用但又沒能力投入大量的資金進行研發。
所以,聲網在上市前IPO的過程中,曾向投行分析師表明自己公司的發展前景是利用智慧語音傳輸與識別技術,搭建有利於物聯網企業發展的基礎設施。
圖 / 攝圖網,基於VRF協議
此外,由於中國市場的另一個特點是:對雲通訊表現出較大需求的是行業大客戶,而這些行業大客戶對標準化的產品不太感冒,他們大多願意選擇有定製化能力的服務商。因此,容聯雲在此之外還提供雲呼叫中心(CC)、定製化的統一通訊與協作服務(UC&C)等中大型客戶需要的語音業務。
所謂雲統一通訊與協作,這類服務包含了即時通訊IM、影片會議、電話會議及直播等服務。這種基於雲的UC&C解決方案透過一個集中式門戶來支撐業務通訊和協作所需的多種通訊功能,如即時通訊、音訊、影片會議和電話,支援公有云、私有云等多種部署模式。
而這個業務對兩家新上市的智慧語音企業來說,其實就是它們新的業務突破口,而且與科大訊飛、百度和搜狗等這些巨頭企業在智慧語音賽道並沒有形成直接競爭,反而是一個互利互補的關係。
這也是為什麼這兩家企業在最近一年內突飛猛進的原因。
4、為什麼是智慧語音?這兩年裡,AI行業在中國掀起了一輪接一輪的投資高潮。但與那些逐漸沉寂下去的細分賽道不同,目前仍在市場中活躍的AI細分賽道里,智慧語音算核心的一個。
原因特別簡單。
當前,國際上對於人工智慧基於演算法實現的核心理論沒有達成一致的認知。畢竟相關人工智慧領域應對的無一不是非常複雜繁瑣的狀況,在量子計算機並沒有投入使用的狀態下,靠現有的計算能力無法利用演算法來實現真正的人工智慧。
而在中國,各家獨角獸們發展中或多或少都遇到這個問題。中國人的解決辦法是:派人教會系統。
這個“透過人工窮舉各種可能發生的表現形式,然後讓計算機記錄再進行演算法的執行”的過程,就是所謂的“資料標註”。與已經成為全球最大的AI市場相一致,在安徽、山東一帶,也已成為全球最大的資料標註基地。
這些從事資料標註的人,被稱作這個行業的“新民工”。
當然,人類在社會活動中時刻都會發生意外,為了解決這些意外帶來的變化,AI領域的各個獨角獸必須保持大規模的資料標註團隊。
因此,有人開玩笑說,人工智慧真的就是“人工”智慧。也因此,2020年國際上就已經有科學家對外表示,現在已經實現的其實都是“偽”人工智慧。
在這種過程中,語言由於核心詞彙的可控性以及增量樣本的易輸入性,逐漸成為窮舉法應對AI智慧的一個標準案例。
因為每當使用者使用科大訊飛的語音識別技術時,其每次糾正語音輸出的結果,都意味著在動態幫助科大訊飛的語音處理資料庫積累樣本和資料。而這種自動透過使用者的使用來校準人工智慧精確度的方式,在其他賽道實現起來的成本太高或者推廣力度要增加很多。
因此,智慧語音成為當下僅存且還可保證強大市場活性的人工智慧產品領域。
圖 / 攝圖網,基於VRF協議
不過,這中間還存在巨大的問題。
畢竟,人工智慧最基礎的理論並沒有得到事實上的證明。很多被刊發出的理論仍然處於推論階段,而著急的市場已經在利用這些理論構建產品,這被看作是基於演算法的人工智慧目前最大的BUG。
在科學界看來,很多突發的資訊擾動會造成莫名其妙的失誤,這點想完全用純演算法解決,幾乎不可能。
如果有新的突破性技術出現,從底層理論和演算法上完成蛻變,那或將對國內目前成型的AI產業帶來無法估量的變革。而在這方面,目前國內的關注度明顯不夠。
正如恆河之砂,搭不起萬丈高樓一樣。這種“窮舉”的人工智慧,如果不迭代,會出大問題。
倘若,“一剎那”能重來一次,也許多倫多大學的傑弗裡·辛頓教授不會在2006年,對外發布自己的那三篇關於深度學習的論文。
因為他沒想到的是,僅僅一個源自實驗室的設想,如今已變成了超過千億美元的大生意並發展得超乎了人們的想象,尤其在資本市場風起雲湧的中國。
*文中題圖來自:攝圖網,基於VRF協議。