具備AI雙麥降噪功能的Voitist音旋風612正式釋出，怎麼看？

首頁>Club>2021-02-23 02:13

具備AI雙麥降噪功能的Voitist音旋風612正式釋出，怎麼看？

回覆列表

1 # 魚侃侃

12月26日，探境科技舉辦“黑科技釋出會”。在會上，探境科技正式公佈自己的AI語音識別晶片產品矩陣，介紹其核心架構為SFA，同時，正式推出具備AI雙麥降噪功能的語音識別方案即Voitist音旋風612。

探境科技是於2017年3月成立，是一家致力於語音、影象AI晶片的AI晶片設計公司，主要提供軟硬體一體化的整體方案。
探境科技的產品主要採取SFA核心架構，這是一種面對AI晶片裡儲存牆的問題而設定的架構，主張以儲存驅動計算。與“類CPU架構”相比，SFA架構資料訪問可以降低10至100倍，同時如果在28奈米工藝條件下，SFA架構系統能效比將達到較高水平，可達4T OPS/W，計算資源利用率高，對DDR寬頻的佔用也會大大降低。

探境科技CEO魯勇稱：SFA架構具有通用性，可以支援目前所有的深度學習神經網路，同時，它對神經網路引數以及資料型別沒有限制。就算是沒有任何經驗和基礎的使用者也能夠輕鬆駕馭、使用工具鏈。

自2018年推出SFA架構之後，兩年內，探境科技首先推出語音晶片，完成語音晶片的量產，量產超過百萬，合作伙伴多達30多家，包括海爾等著名企業。而影象晶片已在2019年Q4流片成功，核心能效比可以達800 IPS/w這一高水平，同時影象晶片在一些領域已經處於盈利模式。
2019年9月，音旋風611 開始量產，目前出貨量已經超過百萬，取得了不錯的成績。此次Voitist音旋風612也正是在前者的基礎上，對語音識別演算法，尤其是AI降噪演算法、端到端演算法進行了進一步的升級，為消費者提供更為優質的體驗、使用效果。

探境科技副Quattroporte李同治表示：目前在語音研發領域，尤其是智慧家居語音研究領域還存在較多問題，其中最為主要的有低音噪比、訊號差、接收不及時、多聲源、非穩態的噪聲等問題，為此，探境科技將會透過高計算強度的神經網路、AI降噪演算法以及雙麥演算法，解決在降噪和語音識別這兩個環節的問題。

對於語音識別產品，還有一個十分重要的問題就是如何處理訊號問題。目前，傳統的解決方案主要是利用麥克風陣列訊號增強演算法，但這一方案過度依賴聲源定位、無法降低降噪比且對元件的要求極高，難以達到較高的語音識別效果和降噪效果。
根據這一情況，探境科技則是把增強和識別進行一體化的處理，從而實現端到端的識別，同時，採用基礎於神經網路的AI演算法，來增強訊號，提高訊號的接收速度；推出端到端AI雙麥演算法，並將其與FCSP相結合，提高準確度。

在這些解決方案的基礎上，Voitist音旋風612將呈現更為優質、更加低噪、更為及時的語音識別效果，接下來，讓我們一起拭目以待吧！

2 # 航院拉莫斯

今年2月底，探境科技釋出了由低功耗系列、主打系列、旗艦系列組成的三大系列、6顆AI晶片組成的產品矩陣。其中，探境釋出了具備AI雙麥降噪功能的語音識別方案，即Voitist音旋風612，這也是首個離線上一體的語音識別解決方案。
AI降噪+HONN 無懼家居噪音
信噪比，是衡量需要識別的目標聲源與其它干擾聲源強度比值的對數。一般將信噪比低於15dB的稱為噪聲環境。信噪比越低，識別難度越大。
在語音識別的研發過程中，一個完整的識別鏈路可以簡化為麥克風輸入、降噪處理、語音識別、識別結果輸入四個環節。想做好識別，首先要在降噪處理上下功夫。

據探境科技副Quattroporte李同治介紹，為了驗證探境AI降噪演算法的有效性，他曾將一批信噪比在3dB左右的語音資料送到一個知名的雲端公開語音識別引擎做了測試，降噪後比降噪前提高30%識別準確率。

在傳統的語音識別演算法裡，用的最多的是全連線的操作，叫DNN/DTNN。相比較於全連線操作，卷積操作能夠提供更高的計算強度，且卷積運算與人類大腦負責感知模組的處理方法類似，能夠提取滿足大腦認知的本質特徵。

探境將其計算機視覺中的一些經驗遷移到語音識別中，在語音識別演算法上加入了更多的卷積操作，重新設計了一個高計算強度的神經網路，即HONN(High Operation Neural Network)。
正是依託於AI降噪技術+HONN神經網路，探境的Voitist音旋風611，可以覆蓋絕大部分的生活場景，無懼各種噪音干擾。
端到端雙麥加持攻克0dB環境
為了提升低這些場景下的識別率，還需要使用麥克風陣列來增強語音訊號。探境在雙麥演算法上有自己的獨門絕技—FCSP雙麥識別演算法。”

“為了克服傳統分模組語音增強演算法的這些缺點，我們設計出了基於FCSP的端到端AI雙麥演算法。”李同治對記者表示。FCSP(Frequency Complex Subspace Projection)是探境自研的頻域複數子空間投影演算法的簡稱。

這個演算法直接輸入陣列訊號，輸出的是最終的識別結果，中間部分全部交給基於深度學習的AI演算法來處理，不再使用傳統的數字訊號處理方法。訊號增強與識別模組整體以降低識別錯誤率為目標進行最佳化，避免了語音增強與語音識別模組錯配的問題。
“端到端”是目前國際上最前沿的處理演算法。透過AI語音演算法+HONN神經網路模型來提升識別率，再透過FCSP“端到端”的雙麥處理演算法簡化識別流程，降低最終識別錯誤率，探境的語音演算法實現了跨越式的升級。

探境自研的SFA架構，以儲存驅動計算，具有能效比高、資源利用率高、通用性強等特點。在SFA架構上實現深度學習時，只需要一個較高層次的神經網路描述。SFA的編譯器首先將這個神經網路進行全部融合，然後根據具體架構實現的規模產生一個統一的儲存流圖，再進行儲存節點的時空對映，最後根據各個節點之間的計算型別配置計算單元，組合起來形成一個統一的韌體供SFA控制器使用。

在28nm常規工藝晶片的對比測試中，SFA架構在乘法器數目相同情況下，結果如下表。(DRAM為LPDDR4)。
這意味著SFA架構所採用的各種微觀和宏觀排程演算法，比較“類CPU架構”採用的基於匯流排和指令集的對映方法，在近似儲存量、近似算力、近似外部儲存頻寬、近似功耗約束的前提下，可以獲得8~12倍的利用率收益。

“SFA(儲存優先)架構是探境的產品基石，正是藉助SFA的優勢，我們的AI晶片產品才能‘裂變式’的推出，大大加快了探境的商業化落地速度。”探境CEO魯勇這樣評價SFA架構的意義。

“探境不僅僅是一個語音晶片公司，而是一家語音、影象整體結合的AI晶片公司。AI晶片這一領域不像手機APP那樣，瞬間可以憑一款應用獲得數百萬的使用者，AI晶片更像馬拉松長跑，比的是耐力，而不是衝刺速度，在這場比賽中，不是要看誰跑得快，而是要看誰有潛力到達終點，誰在中途不走岔路。”魯勇向記者表示。

∧ 中秋節和大豐收的關聯？

∨ 皮口港到獐子島船票多錢，一天幾趟，住宿價格，謝謝？

熱門排行

劇多

具備AI雙麥降噪功能的Voitist音旋風612正式釋出，怎麼看？