回覆列表
  • 1 # 使用者716250971542

    首先,什麼是語音喚醒?

    語音喚醒,有時也稱為關鍵詞檢測(Keyword spotting),也就是在連續不斷的語音中將目標關鍵詞檢測出來,一般目標關鍵詞的個數比較少(1~2個居多,特殊情況也可以擴充套件到更多的幾個)。

    語音喚醒和語音識別的區別:語音識別只能處理一段一段的語音資料,也就是待識別的語音有明確的開始和結束,比如siri按下home鍵,開始錄音說話,鬆開錄音結束,返回識別結果;語音喚醒是處理連續不斷的語音流,比如語音開關24小時不間斷的檢測麥克錄音中的關鍵詞資訊;語音喚醒可以和語音識別技術結合,用於檢測語音開始的位置,替換掉按鍵,比如Amazon Echo中,用”alexa”作為喚醒詞,一旦檢測到喚醒詞,則開始錄音進行語音識別。

    語音喚醒效能:

    喚醒率:將連續語流中存在的喚醒詞檢測出來,這個和語音識別的識別率有一定的相似性

    誤喚醒率:連續語音中不存在喚醒詞,但是將一些其他語音誤判為喚醒關鍵詞

    常用的實現方式:dnn+hmm(深度神經網路+隱馬爾科夫模型),lstm+ctc(長短時記憶網路+全連線時序分類模型)

    目前業界軟體喚醒方案,也即提供SDK,實現喚醒功能一般分為線上和離線版本。國內主要以科大訊飛與百度為代表。喚醒率總體超過95%(這個只能參考,具體看測試場景)。網上也有多種開源的小型語音識別引擎,可以實現單獨的語音喚醒功能,效能參差不齊。

    簡單說明各演算法優缺點

    Sphinx

    優點

    前端結構模組化較好。包括實現預加重、加窗、FFT、Mel頻率濾波器、離散餘弦變換、MFCC特徵提取

    通用的聲學模型結構

    適合嵌入到Android、ARM平臺

    操作文件具有很好的可讀性,易於學習,貼近實踐操作

    缺點

    採用傳統的HMM-GMM框架,對其原理的學習及掌握具有一定的難度

    Mozilla DeepSpeech

    優點

    該模型的準確性接近人類在聽同樣的錄音時的感知

    Mozilla還發布了世界上第二大公開的語音資料集,這是全球近2萬名使用者的貢獻

    缺點

    語音資料主要集中在英文語言,還缺乏多種語音資料集的支援

    男性語音資料暫時多於女性語音資料

    HTK

    優點

    程式碼歷史悠久、穩定、高效

    操作文件HTKBOOK全面

    模型訓練工具齊全

    缺點

    採用傳統的HMM框架,對其原理的學習及掌握具有一定的難度

    模型訓練的預處理的部分工作繁瑣易出錯

    Julius

    優點

    支援神經網路建模

    最新的版本採用模組化的設計思想,使得各功能模組可以透過引數配置

    缺點

    文件以日文居多

    神經網路中的最佳化trick較多,較多地依賴於經驗

    Kaldi

    優點

    加入了對神經網路的支援

    維護更新及時

    學術界、工業界活躍度高,是目前主流的語音識別研發工具

    缺點

    透過公共介面的設計讓不同的工具容易協作,但是增加了對指令碼及演算法的理解難度

    神經網路中的最佳化較多,調參較多地依賴於經驗

    iATROS

    優點

    適用於語音和手寫文字識別的實現

    提供了一個模組化的結構,可以用來建立不同的系統,其核心是一個類維特比在Hidden Markov模型的網路搜尋

    提供離線識別和線上語音識別標準工具(基於ALSA模組)

    缺點

    網路複雜度較高,識別速度略慢

    Wav2letter

    優點

    簡單高效的端到端自動語音識別(ASR)系統,結合了基於卷積網路的聲學模型和圖解碼

    其被訓練輸出文字,轉錄語音,而無需強制對齊音素

    引入了一個自動的序列標註訓練分割準則,而不需要與CTC一致的對齊方式

    缺點

    目前只能識別英文語音

  • 中秋節和大豐收的關聯?
  • 衣服抽絲了怎樣還原?