自動語音識別簡介
語音識別技術,也可以稱為自動語音識別(Automatic Speech Recognition,ASR),其任務是把人所發出的語音中詞彙內容轉換為計算機可讀入的文字。語音識別技術是一種綜合性的技術,它涉及到多個學科領域,如發聲機理和聽覺機理、訊號處理、機率論和資訊理論、模式識別以及人工智慧等等。
目前,主流的大詞彙量語音識別系統中通常採用基於統計模型的識別技術,典型的基於統計模型的語音識別系統通常有如下幾個基本組成模組:
訊號處理及特徵提取模組。該模組的主要任務是從輸入的語音訊號中提取特徵,用於聲學模型的建模以及解碼過程。但在提取特徵之前也需要負責對語音訊號進行降噪等處理,以提高系統的魯棒性。
統計聲學模型。通常的語音識別系統大都使用隱馬爾科夫模型對詞,音節、音素等基本的聲學單元進行建模,生成聲學模型。
語言模型。語言模型對系統所需識別的語言在單詞層面上進行建模。語言模型包括正則語言,上下文無關文法的各種語言模型,但是語言的語法通常很複雜,語法檔案中的語法規則會很多,並且需要繁重的人工勞動來完成語法規則的編寫,所以但目前大多數語音識別系統普遍採用統計語言模型,其中大都是基於統計的N元語法(N-gram)模型及其變體。
發音詞典。發音詞典包含系統所能處理的單詞的集合,並標明瞭其發音。透過發音詞典得到聲學模型的建模單元和語言模型建模單元間的對映關係,從而把聲學模型和語言模型連線起來,組成一個搜尋的狀態空間用於解碼器進行解碼工作。
自動語音識別簡介
語音識別技術,也可以稱為自動語音識別(Automatic Speech Recognition,ASR),其任務是把人所發出的語音中詞彙內容轉換為計算機可讀入的文字。語音識別技術是一種綜合性的技術,它涉及到多個學科領域,如發聲機理和聽覺機理、訊號處理、機率論和資訊理論、模式識別以及人工智慧等等。
目前,主流的大詞彙量語音識別系統中通常採用基於統計模型的識別技術,典型的基於統計模型的語音識別系統通常有如下幾個基本組成模組:
訊號處理及特徵提取模組。該模組的主要任務是從輸入的語音訊號中提取特徵,用於聲學模型的建模以及解碼過程。但在提取特徵之前也需要負責對語音訊號進行降噪等處理,以提高系統的魯棒性。
統計聲學模型。通常的語音識別系統大都使用隱馬爾科夫模型對詞,音節、音素等基本的聲學單元進行建模,生成聲學模型。
語言模型。語言模型對系統所需識別的語言在單詞層面上進行建模。語言模型包括正則語言,上下文無關文法的各種語言模型,但是語言的語法通常很複雜,語法檔案中的語法規則會很多,並且需要繁重的人工勞動來完成語法規則的編寫,所以但目前大多數語音識別系統普遍採用統計語言模型,其中大都是基於統計的N元語法(N-gram)模型及其變體。
發音詞典。發音詞典包含系統所能處理的單詞的集合,並標明瞭其發音。透過發音詞典得到聲學模型的建模單元和語言模型建模單元間的對映關係,從而把聲學模型和語言模型連線起來,組成一個搜尋的狀態空間用於解碼器進行解碼工作。