回覆列表
-
1 # 矽釋出
-
2 # 曹平19
語音識別和語音對話入門是靠資料收集。就像語言翻譯一樣,正確率目前已達90%以上,人臉識別正確率達99%,都可進入商業應用。要想突破語音識別,必須使用雲計算和大資料處理,從而找到語音共同點和不同點,有針對性開發相應軟體,而且在除錯中不斷完善,從而從語音識別到語音對話,最終實現語音控制到語音思維。
語音識別和語音對話入門是靠資料收集。就像語言翻譯一樣,正確率目前已達90%以上,人臉識別正確率達99%,都可進入商業應用。要想突破語音識別,必須使用雲計算和大資料處理,從而找到語音共同點和不同點,有針對性開發相應軟體,而且在除錯中不斷完善,從而從語音識別到語音對話,最終實現語音控制到語音思維。
特徵提取是自動語音識別(ASR)系統的一部分。這個元件應該從視窗和增強的語音訊號中匯出描述性特徵,以便對聲音進行分類。特徵提取是因為原始語音訊號包含除語言訊息之外的資訊並且具有高維度。原始語音訊號的兩個特徵對於聲音的分類是不可行的並且導致高的字錯誤率。因此,特徵提取演算法匯出具有較低維度的特徵特徵向量,其用於聲音的分類。
特徵向量應該強調關於特定任務的重要資訊並且抑制所有其他資訊。由於自動語音識別的目標是轉錄語言資訊,因此需要強調關於該資訊的資訊。由於這些特徵不包含關於語言資訊的任何資訊,因此應該抑制說話者的特徵,環境特徵和記錄裝置。包括這些非語言資訊會引入額外的可變性,這可能對電話類別的可分性產生負面影響。此外,特徵提取應該減少資料的維數以減少計算時間和訓練樣本的數量。
迄今為止,學者已經提出了突出語音訊號不同方面的許多不同特徵。這些功能主要可以分為語言和聲學功能。聲學特徵僅與非言語性爆發(如笑聲或嘆息)的分類有關。語言特徵與ASR系統更相關,因為這些系統試圖轉錄語言資訊。例如,一些的語言特徵是強度,線性預測編碼(LPC),中理念的線性預測係數(PLP),梅爾頻率倒譜系數(MFCC) ,線性預測倒譜系數(LPCC), 基於小波的功能 和非負矩陣分解功能。由於它們的準靜態特性,許多先前提到的低階特徵使用範圍從10ms到30ms的語音訊號幀。此外,這些功能中的許多功能都是受到生物啟發的,並從頻譜中提取特徵,因為人類語音產生控制著訊號的頻譜,而耳朵則充當頻譜分析儀。