-
1 # 魚侃侃
-
2 # 航院拉莫斯
今年2月底,探境科技釋出了由低功耗系列、主打系列、旗艦系列組成的三大系列、6顆AI晶片組成的產品矩陣。其中,探境釋出了具備AI雙麥降噪功能的語音識別方案,即Voitist音旋風612,這也是首個離線上一體的語音識別解決方案。
AI降噪+HONN 無懼家居噪音信噪比,是衡量需要識別的目標聲源與其它干擾聲源強度比值的對數。一般將信噪比低於15dB的稱為噪聲環境。信噪比越低,識別難度越大。
在語音識別的研發過程中,一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結果輸入四個環節。想做好識別,首先要在降噪處理上下功夫。
據探境科技副Quattroporte李同治介紹,為了驗證探境AI降噪演算法的有效性,他曾將一批信噪比在3dB左右的語音資料送到一個知名的雲端公開語音識別引擎做了測試,降噪後比降噪前提高30%識別準確率。
在傳統的語音識別演算法裡,用的最多的是全連線的操作,叫DNN/DTNN。相比較於全連線操作,卷積操作能夠提供更高的計算強度,且卷積運算與人類大腦負責感知模組的處理方法類似,能夠提取滿足大腦認知的本質特徵。
探境將其計算機視覺中的一些經驗遷移到語音識別中,在語音識別演算法上加入了更多的卷積操作,重新設計了一個高計算強度的神經網路,即HONN(High Operation Neural Network)。
正是依託於AI降噪技術+HONN神經網路,探境的Voitist音旋風611,可以覆蓋絕大部分的生活場景,無懼各種噪音干擾。
端到端雙麥加持 攻克0dB環境為了提升低這些場景下的識別率,還需要使用麥克風陣列來增強語音訊號。探境在雙麥演算法上有自己的獨門絕技—FCSP雙麥識別演算法。”
“為了克服傳統分模組語音增強演算法的這些缺點,我們設計出了基於FCSP的端到端AI雙麥演算法。”李同治對記者表示。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域複數子空間投影演算法的簡稱。
這個演算法直接輸入陣列訊號,輸出的是最終的識別結果,中間部分全部交給基於深度學習的AI演算法來處理,不再使用傳統的數字訊號處理方法。訊號增強與識別模組整體以降低識別錯誤率為目標進行最佳化,避免了語音增強與語音識別模組錯配的問題。
“端到端”是目前國際上最前沿的處理演算法。透過AI語音演算法+HONN神經網路模型來提升識別率,再透過FCSP“端到端”的雙麥處理演算法簡化識別流程,降低最終識別錯誤率,探境的語音演算法實現了跨越式的升級。
探境自研的SFA架構,以儲存驅動計算,具有能效比高、資源利用率高、通用性強等特點。在SFA架構上實現深度學習時,只需要一個較高層次的神經網路描述。SFA的編譯器首先將這個神經網路進行全部融合,然後根據具體架構實現的規模產生一個統一的儲存流圖,再進行儲存節點的時空對映,最後根據各個節點之間的計算型別配置計算單元,組合起來形成一個統一的韌體供SFA控制器使用。
在28nm常規工藝晶片的對比測試中,SFA架構在乘法器數目相同情況下,結果如下表。(DRAM為LPDDR4)。
這意味著SFA架構所採用的各種微觀和宏觀排程演算法,比較“類CPU架構”採用的基於匯流排和指令集的對映方法,在近似儲存量、近似算力、近似外部儲存頻寬、近似功耗約束的前提下,可以獲得8~12倍的利用率收益。
“SFA(儲存優先)架構是探境的產品基石,正是藉助SFA的優勢,我們的AI晶片產品才能‘裂變式’的推出,大大加快了探境的商業化落地速度。”探境CEO魯勇這樣評價SFA架構的意義。
“探境不僅僅是一個語音晶片公司,而是一家語音、影象整體結合的AI晶片公司。AI晶片這一領域不像手機APP那樣,瞬間可以憑一款應用獲得數百萬的使用者,AI晶片更像馬拉松長跑,比的是耐力,而不是衝刺速度,在這場比賽中,不是要看誰跑得快,而是要看誰有潛力到達終點,誰在中途不走岔路。”魯勇向記者表示。
回覆列表
12月26日,探境科技舉辦“黑科技釋出會”。在會上,探境科技正式公佈自己的AI語音識別晶片產品矩陣,介紹其核心架構為SFA,同時,正式推出具備AI雙麥降噪功能的語音識別方案即Voitist音旋風612。
探境科技是於2017年3月成立,是一家致力於語音、影象AI晶片的AI晶片設計公司,主要提供軟硬體一體化的整體方案。
探境科技的產品主要採取SFA核心架構,這是一種面對AI晶片裡儲存牆的問題而設定的架構,主張以儲存驅動計算。與“類CPU架構”相比,SFA架構資料訪問可以降低10至100倍,同時如果在28奈米工藝條件下,SFA架構系統能效比將達到較高水平,可達4T OPS/W,計算資源利用率高,對DDR寬頻的佔用也會大大降低。
探境科技CEO魯勇稱:SFA架構具有通用性,可以支援目前所有的深度學習神經網路,同時,它對神經網路引數以及資料型別沒有限制。就算是沒有任何經驗和基礎的使用者也能夠輕鬆駕馭、使用工具鏈。
自2018年推出SFA架構之後,兩年內,探境科技首先推出語音晶片,完成語音晶片的量產,量產超過百萬,合作伙伴多達30多家,包括海爾等著名企業。而影象晶片已在2019年Q4流片成功,核心能效比可以達800 IPS/w這一高水平,同時影象晶片在一些領域已經處於盈利模式。
2019年9月,音旋風611 開始量產,目前出貨量已經超過百萬,取得了不錯的成績。此次Voitist音旋風612也正是在前者的基礎上,對語音識別演算法,尤其是AI降噪演算法、端到端演算法進行了進一步的升級,為消費者提供更為優質的體驗、使用效果。
探境科技副Quattroporte李同治表示:目前在語音研發領域,尤其是智慧家居語音研究領域還存在較多問題,其中最為主要的有低音噪比、訊號差、接收不及時、多聲源、非穩態的噪聲等問題,為此,探境科技將會透過高計算強度的神經網路、AI降噪演算法以及雙麥演算法,解決在降噪和語音識別這兩個環節的問題。
對於語音識別產品,還有一個十分重要的問題就是如何處理訊號問題。目前,傳統的解決方案主要是利用麥克風陣列訊號增強演算法,但這一方案過度依賴聲源定位、無法降低降噪比且對元件的要求極高,難以達到較高的語音識別效果和降噪效果。
根據這一情況,探境科技則是把增強和識別進行一體化的處理,從而實現端到端的識別,同時,採用基礎於神經網路的AI演算法,來增強訊號,提高訊號的接收速度;推出端到端AI雙麥演算法,並將其與FCSP相結合,提高準確度。
在這些解決方案的基礎上,Voitist音旋風612將呈現更為優質、更加低噪、更為及時的語音識別效果,接下來,讓我們一起拭目以待吧!