首頁>Club>
7
回覆列表
  • 1 # 每日網際網路觀察

    傳統的語音識別系統,是由許多個模組組成的,包括聲學模型、發音詞典、語言模型。其中聲學模型和語言模型是需要訓練的。這些模組的訓練一般都是獨立進行的,各有各的目標函式,比如聲學模型的訓練目標是最大化訓練語音的機率,語言模型的訓練目標是最小化 perplexity。由於各個模組在訓練時不能互相取長補短,訓練的目標函式又與系統整體的效能指標(一般是詞錯誤率 WER)有偏差,這樣訓練出的網路往往達不到最優效能。

    針對這個問題,一般有兩種解決方案:端到端訓練(end-to-end training):一般指的是在訓練好語言模型後,將聲學模型和語言模型接在一起,以 WER 或它的一種近似為目標函式去訓練聲學模型。由於訓練聲學模型時要計算系統整體的輸出,所以稱為「端到端」訓練。可以看出這種方法並沒有徹底解決問題,因為語言模型還是獨立訓練的。端到端模型(end-to-end models):系統中不再有獨立的聲學模型、發音詞典、語言模型等模組,而是從輸入端(語音波形或特徵序列)到輸出端(單詞或字元序列)直接用一個神經網路相連,讓這個神經網路來承擔原先所有模組的功能。典型的代表如使用 CTC 的 EESEN [1]、使用注意力機制的 Listen, Attend and Spell [2]。這種模型非常簡潔,但靈活性就差一些:一般來說用於訓練語言模型的文字資料比較容易大量獲取,但不與語音配對的文字資料無法用於訓練端到端的模型。因此,端到端模型也常常再外接一個語言模型,用於在解碼時調整候選輸出的排名(rescoring),如 [1]。

    「端到端訓練」和「端到端模型」的區分,在 [2] 的 introduction 部分有比較好的論述。

    我覺得「輸入是語音波形(raw waveform)」並不是端到端模型的本質特徵,端到端模型的輸入也可以是特徵序列(MFCC 等)。端到端模型的本質特徵是把聲學模型、發音詞典、語言模型這些傳統模組融合在一起。

  • 2 # 哥廷根數學學派

    end-to-end 的本質是你要解決的問題是多階段的或多步的(跟所謂的raw feature沒啥關係)。如果分階段學習的話,第一階段的最優解不能保證第二階段的問題達到最優。end-to-end把他們堆在一起來最佳化,確保最後階段的解達到最優。

  • 中秋節和大豐收的關聯?
  • 夏季該怎樣給身體排毒?