-
1 # 暴躁老闆
-
2 # 李峰910712
肯定是會用,可能未來手機都不需要了,一個指紋就搞定,大資料是有可能的,畢竟每個人的指紋不一樣。只要有想法,這個東西是有辦法去實現他的
-
3 # 安防之眼
在全球智慧語音企業市場份額佔比中,Nuance以佔比31.6%的份額,穩居第一;谷歌和蘋果則分別以佔比28.4%和15.4%,排在第二、第三名。那麼語音識別發展趨勢會是怎麼樣的呢?
透過對語音識別發展趨勢的詳細分析得知語音識別技術則發展的不溫不火。究其原因,應用場景尷尬是其中之一。畢竟,比手指接觸裝置、紅外線掃描人臉或虹膜的方式相比,語音識別需要透過發聲的方式進行,這樣在有人或者無人的場景下,這種進行身份認定的方式都讓人覺得怪怪的。
發展趨勢預測
進一步提升在遠場識別尤其是有人聲干擾情況下的識別率
目前一般遠場識別的錯誤率是近場識別錯誤率的兩倍左右,所以在很多情況下語音識別系統還不盡如人意。遠場識別至少目前還不能單靠後端的模型加強來解決。現在大家的研究集中在結合多通道訊號處理(例如麥克風陣列)和後端處理從拾音源頭到識別系統全程最佳化來增強整個系統的表現。
更好的識別演算法
這個「更好」有幾個方面:一個方面是能不能更簡單。現在的模型訓練過程還是比較複雜的,需要經過很多步驟。如果沒有 HTK 和 Kaldi 這樣的開源軟體和 recipe 的話,很多團隊都要用很長時間才能搭建一個還 OK 的系統,即使 DNN 的使用已經大幅降低了門檻。現在因為有了開源軟體和 recipe,包括像 CNTK 這樣的深度學習工具包,事情已經容易多了,但還有繼續簡化的空間。這方面有很多的工作正在做,包括如何才能不需要 alignment 、或者不需要 dictionary。現在的研究主要還是基於 end-to-end 的方法,就是把中間的一些以前需要人工做的步驟或者需要預處理的部分去掉。雖然目前效果還不能超越傳統的 hybrid system,但是已經接近 hybrid system 的 performance 了。
尋找特殊網路結構
最近的幾年裡大家已經從一開始使用簡單的 DNN 發展到了後來相對複雜的 LSTM 和 Deep CNN 這樣的模型。但在很多情況下這些模型表現得還不夠好。所以一個研究方向是尋找一些特殊的網路結構能夠把我們想要 model 的那些東西都放在裡面。我們之前做過一些嘗試,比如說人在跟另外一個人對話的過程中,他會一直做 prediction,這個 prediction 包括很多東西,不單是包括你下一句想要說什麼話,還包括根據你的口音來判斷你下面說的話會是怎樣等等。我們曾嘗試把這些現象建在模型裡以期提升識別效能。很多的研究人員也在往這個方向走。
快速自適應的方法
快速自適應的方法就是快速的不需要人工干預的自適應方法(unsupervised adaptation)。現在雖然已經有一些自適應的演算法了,但是它們相對來說自適應的速度比較慢,或者需要較多的資料。有沒有辦法做到更快的自適應?就好像第一次跟一個口音很重的人說話的時候,你可能開始聽不懂,但兩三句話後你就可以聽懂了。大家也在尋找像這種非常快還能夠保證良好效能的自適應方法。快速自適應從實用的角度來講還是蠻重要的。因為自適應確實在很多情況下能夠提升識別率。
透過對語音識別發展趨勢的詳細分析得知隨著語音識別技術不斷提升,這些問題在未來可以不斷得到改善,語音識別市場潛力還將繼續上升。研究機構指出,2015年全球語音識別市場規模為61.9億美元,預計到2020年可以接近200億美元。以上便是筆者對語音識別發展趨勢的詳細分析了
回覆列表
蘋果已經有了。
sir系統,機主自己說出“嗨sir”可以撥出sir
其他人說就不管用。
只是這個可能安全級別不高。暫時還沒作為密碼使用。