語音識別技術原理，語音識別是如何實現的？

首頁>Club>cdh1232021-12-01 03:56

語音識別技術原理，語音識別是如何實現的？

回覆列表

1 # 手機前沿匯

語音輸入轉換成文字，那麼這裡就有一個能夠簡單快速的將語音轉換位置文字的方法。簡單輕鬆就能夠幫助語音輸入文字的需要，高效快捷。
需要輸入文字的時候，都會選擇“錄音轉文字助手”來幫助將語音識別成文字，
1）在應用市場找到這個工具將它安裝在手機之後在語音識別的頁面中選擇：錄音機，就可以錄製音訊了；
2）等待錄製結束，這裡我們需要將音訊檔案儲存一份，然後進入手機檔案庫的頁面，找到錄製的音訊；
4）最後，我們同樣可以進入文字頁面，進行翻譯、複製、匯出等操作。
怎麼將錄音轉成文字？線上語音轉文字、手機音訊轉文字看這裡

2 # 人類文明索引

一. 語音識別原理
語音識別，以目前的主流ASR-自動語音/語言識別技術為例，實現的功能是把音訊波形（模擬訊號）轉換為文字（符號）。其原理可以理解為一個計算機系統，輸入語音，並分解為詞、字、音節等元素，透過與軟體內部儲存好的特徵元素（模型）進行模式匹配，找到最可能接近的文字、詞語或語句並輸出。
ASR方法是建立在機率論與統計學科上。這與人類對話交流的過程有異同：區別在於人類對話時，聲音是透過耳朵進入大腦直接處理，不需要轉變成文字，否則文盲就不能與他人溝通，事實並非如此；相同點是都需要一個學習的過程，幼兒學說話是個反覆強化記憶的過程，ASR的模型也需要語料的訓練，得到一個合適引數的模型結構用來推理。
二. 語音識別技術的工程實現
1.一種主流典型的ASR框架

特徵提取：經典的MFCC梅爾頻率倒譜系數法——對輸入端的經過增強、去噪等預處理後的音訊波形檔案進行特徵提取，主要是濾波、截斷（分幀）、加窗、快速傅立葉變換FFT等訊號處理操作，得到短時語音訊號的功率譜，再經過三角窗濾波、log對數、離散預選DCT、譜加權、倒譜均值減CMS、一二階差分等操作，得到特徵向量，即可觀測的詞條序列；
假設最終期望識別得到的詞條序列是。需要成立一個語音詞典或參考模型庫，其中存放的是可能的詞條序列（人為設定），作為獨立於語音特徵向量，即詞條序列在相應語言庫中出現的機率；聲學模型：對聲學單元建模，每個聲學元素由連續的多個狀態和狀態之間的轉移組成，用機率密度函式狀態轉移機率。可近似理解為一套資料結構和數學操作，實現的是進來一個聲音單元（可以是音素、字、詞、句），輸出一組二進位制序列/向量。這裡以經典的隱馬爾可夫-高斯HMM-GMM統計模型為例（現在許多用DNN替代GMM）。聲學模型輸出條件機率序列標記為；語言模型：聲學模型智慧識別某段音素序列，不能識別詞語。語言模型描述詞語之間語法規則，透過機率密度分佈函式來識別詞條。語言模型有基於文法規則和統計型別的，後者是目前的主流，例如N元文法N-gram模型，就是根據前面n個音素預測第n+1音素。實際中需要用到平滑和剪枝演算法，不詳述。語言模型的輸出是先驗機率；解碼器：對向量序列按照統計準則（貝葉斯等）計算條件機率，通常用Viterbi演算法實現，動態規劃的最最佳化選擇，原理是搜尋最大機率狀態序列進行求解，具體不詳述。
2.上述框架的完整識別過程：

聲學模型輸出條件機率序列標記為，輸出語言模型輸出先驗機率，語音詞典可能的詞條序列，有了這三個陣列，我們就可以得到語音識別結果。
用數學公式表達如下：由最大後驗準則MAP和貝葉斯公式：
根據假設獨立性和搜尋過程不變，上式簡化為：

對於連續語音識別的過程，可以理解為：經過MFCC得到的特徵序列進入聲學模型；聲學模型中，每個字詞都有對應的HMM等引數，透過聲學特徵對字詞進行搜素得到特徵序列的待定字詞；候選字詞進入語言模型，透過詞法規則和語言模型得到待定詞句；再由句法等語言模型搜尋得到完整的識別語句。

三. 語音識別技術其他關鍵點：

語料準備：人工智慧，是用人工的資料“喂”出的智慧。模型的訓練需要提前準備大量的語音語料和文字語料，型別包括通用領域和特定領域。
語料處理：語料需要清洗和標註，包括元文字標準、重音標註、詞法標註、句法標註、語義標註等。

訓練：聲學模型需要大量語音語料訓練；語言模型需要大量文字語料訓練；

ASR的難點包括：非特定人、非孤立詞、詞彙量大、長時間不間斷語音。
以下完整答覆截圖
3 # 東北振興

語音識別的本質是一種基於語音特徵引數的模式識別，即透過學習，系統能夠把輸入的語音按一定模式進行分類，進而依據判定準則找出最佳匹配結果。

目前，模式匹配原理已經被應用於大多數語音識別系統中。一般的模式識別包括預處理，特徵提取，模式匹配等基本模組。首先對輸入語音進行預處理，其中預處理包括分幀，加窗，預加重等。其次是特徵提取，因此選擇合適的特徵引數尤為重要。常用的特徵引數包括：基音週期，共振峰，短時平均能量或幅度，線性預測係數（LPC），感知加權預測係數（PLP），短時平均過零率，線性預測倒譜系數（LPCC），自相關函式，梅爾倒譜系數（MFCC），小波變換系數，經驗模態分解係數（EMD），伽馬通濾波器係數（GFCC）等。在進行實際識別時，要對測試語音按訓練過程產生模板，最後根據失真判決準則進行識別。
關注優就業，學習更多深度學習知識。

4 # 無線電核聚變

語音助手主要解決聽和說兩個功能。其中聽的話要依託自然語言處理技術，入聲檢測，迴音消除，喚醒詞識別，麥克風陣列處理，語音增強。語音識別的過程需要經歷特徵提取、模型自適應、聲學模型、語言模型、動態解碼等多個過程。自然語言處理，語音識別的過程需要經歷特徵提取、模型自適應、聲學模型、語言模型、動態解碼等多個過程。
應用場景是獲取語音資訊-識別-過濾-合成-輸出。

劇多

語音識別技術原理，語音識別是如何實現的？

相關內容