回覆列表
  • 1 # 使用者3296806220335

    語音輸入是根據操作者的講話,電腦識別成漢字的輸入方法(又稱聲控輸入)。它是用與主機相連的話筒讀出漢字的語音,利用語音識別系統分析辯識漢字或片語,把識別後的漢字顯示在編輯區中,再透過“傳送”功能將編輯區的文字傳到其他文件的編輯中。

    語音識別技術的原理是將人的話音轉換成聲音訊號,經過特殊處理,與計算機中已儲存的已有聲音訊號進行比較,然後反饋出識別的結果。其關鍵在於將人的話音轉換成聲音訊號的準確性,以及與原有聲音訊號比較時的智慧化程度。語音識別技術是人工智慧的有機組成部分。

    這種輸入法的好處是不再用手去輸入,把雙手解放出來,只要會讀出漢字的讀音即可,但是受每個人漢字發音的限制,不可能都滿足語音識別軟體的要求,因此在實際應用中錯誤率較鍵盤輸入高。特別是一些專業技術方面的語言,識別系統幾乎不能確認,錯誤率較高。

    目前,主流的大詞彙量語音識別系統多采用統計模式識別技術。典型的基於統計模式識別方法的 語音識別系統由以下幾個基本模組所構成

    訊號處理及特徵提取模組。該模組的主要任務是從輸入訊號中提取特徵,供聲學模型處理。同時,它一般也包括了一些訊號處理技術,以儘可能降低環境噪聲、通道、說話人等因素對特徵造成的影響。 統計聲學模型。典型系統多采用基於一階隱馬爾科夫模型進行建模。 發音詞典。發音詞典包含系統所能處理的詞彙集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的對映。 語言模型。語言模型對系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的N元文法及其變體。 解碼器。解碼器是語音識別系統的核心之一,其任務是對輸入的訊號,根據聲學、語言模型及詞典,尋找能夠以最大機率輸出該訊號的詞串。 從數學角度可以更加清楚的瞭解上述模組之間的關係。首先,統計語音識別的最基本問題是,給定輸入訊號或特徵序列,符號集(詞典),求解符號串使得:

    W = argmaxP(W | O) 透過貝葉斯公式,上式可以改寫為

    從這個角度來看,訊號處理模組提供了對輸入訊號的預處理,也就是說,提供了從採集的語音訊號(記為S)到 特徵序列O的對映。而聲學模型本身定義了一些更具推廣性的聲學建模單元,並且提供了在給定輸入特徵下,估計P(O | uk)的方法。

    為了將聲學模型建模單元串對映到符號集,就需要發音詞典發揮作用。它實際上定義了對映的對映。為了表示方便,也可以定義一個由到U的全集的笛卡爾積,而發音詞典則是這個笛卡爾積的一個子集。並且有:

    最後,語言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫成:

    對於解碼器來說,就是要在由,,ui以及時間標度t張成的搜尋空間中,找到上式所指明的W。

    語音識別是一門交叉學科,語音識別正逐步成為資訊科技中人機介面的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,透過語音命令進行操作。語音技術的應用已經成為一個具有競爭性的新興高技術產業。

    與機器進行語音交流,讓機器明白你說什麼,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器透過識別和理解過程把語音訊號轉變為相應的文字或命令的高技術。語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通訊、汽車電子、醫療、家庭服務、消費電子產品等各個領域。語音識別聽寫機在一些領域的應用被美國新聞界評為1997年計算機發展十件大事之一。很多專家都認為語音識別技術是2000年至2010年間資訊科技領域十大重要的科技發展技術之一。

  • 中秋節和大豐收的關聯?
  • 不同地區的人們是如何過元宵節的?