回覆列表
  • 1 # 大蝦王哥

    因為涉及到的問題比較多,我儘量以更通俗的語言來描述。

    智慧語音包含幾個層面:1 語音合成;2 語音識別;3 語義識別。

    1 語音合成

    日常生活中更多的見於導航軟體、聽書軟體、銀行系統智慧語音機器人、推銷電話等,將文字透過語音方式展現出來。和語音識別相比,語音合成的技術相對說來要成熟一些,並已開始大規模商用中。

    語音合成最大的問題在2個方面:

    1)文字規整、詞的切分、語法分析和語義分析。

    舉個例子,“我是華人”,這句話包含“我”,“是”,“華人”三個詞或片語,主、謂、賓關係清晰,但是就現有技術水平來說,還有待提高,聽書軟體中,我們經常聽到的是勻速朗讀,沒有太明顯的斷句和片語切分。

    2)缺少情感。

    更多的是照本宣科式朗讀,情緒變化不明顯,聽起來比較生硬。在不同的語境下,語言和文字代表意思完全不同,導致音量、音色、持續長短等也有所不同。

    總的來說,語音識別成熟度比語音識別、語義識別更好,推廣和商業化程度比較好,雖然一定程度上還存在不足,但隨著語法分析、語義分析技術的提升,這樣,語音合成效果也將會越來越好。

    2 語音識別

    一句話概括,透過識別和理解過程把語音訊號轉變為相應的文字或命令的技術。

    目前市場主要集中政府行業,比如公安、司法(檢查院、法院)、邊檢等,常見於會議、刑訊、庭審、詢問等。同語音合成、語義識別比較來說,難度介於二者之間。

    語音識別主要的產品主要有:

    1)短語音,主要見於個人通訊,簡短交流等場合。

    2)長語音,主要見於會議記錄等。

    3)實時語音,主要用於一邊接收音訊資料,一邊提供轉寫結果,能夠實時獲取和利用文字資訊。

    語音識別難點在於幾個方面:

    1)識別準確率。據分析,電視臺/廣播電臺的播音員語音識別率平均約80-85%(當然,某些情況下也可能達到95%以上,這裡講的是平均水平),更別提一般普通人了。

    2)環境造成的影響。比如車輛、工地、空調、會議噪聲等,會對語音識別有比較大的影響。

    3)口音差異。各省各地方言差異較大,需要足夠的訓練集來訓練。

    5)音調、音量、音色、聲音延長等,也會對結果造成很大的影響。

    總的來說,語音識別效果可以逐步最佳化,行業應用中,儘量調整到最佳狀態。

    3 語義識別

    舉個通俗的例子來說明“語音識別”與“語義分析”在人工智慧技術層次上的不同:使用者對著電視機說一部具體的電影或者電視劇的全名,電視機會對使用者語音進行識別,自動搜尋片名、播放,這就是“語音識別”;但是,如果使用者對電視機說“一部愛情片”、“熱播的動作片”、“香港導演的電影”、“好萊塢大片”等模糊語句,電視機根據使用者的性別、愛好、平時的點播傾向等特徵來進行智慧的分析,並進行精準的推薦,這是“語義分析”,在智商上比“語音識別”高了好幾個層次,領先一大步。

    常見的如智慧家居、車載語音、可穿戴裝置、VR、機器人等。

    語義識別難點在於幾個方面:

    1)詞序的變化,主謂關係的顛倒或省略。比如港臺片中的“我走先”,真正語法中是沒有此說法,但是這個叫法現在大家都懂,但是機器不懂。

    2)語境的影響。

    舉個生活中的一個例子,女朋友給男朋友打電話:

    女:我在電影院門口等你,晚上7點鐘我沒有到的話,你等著;

    女:我在電影院門口等你,晚上7點鐘你沒有到的話,你等著;

    很明顯,語境稍有變化,導致的語義完全不同。

    總的來說,語義識別最難,目前市面上雖然有部分產品試用,但還達不到大規模商用的水平。至於另外一個話題-聲紋識別,主要應用在公安、司法領域,用於取證和預警等,不在今天談論的範圍內。以後有機會再聊。

  • 中秋節和大豐收的關聯?
  • 什麼是“臨兵鬥者皆陣列在前”?