因為涉及到的問題比較多,我儘量以更通俗的語言來描述。
智慧語音包含幾個層面:1 語音合成;2 語音識別;3 語義識別。
1 語音合成
日常生活中更多的見於導航軟體、聽書軟體、銀行系統智慧語音機器人、推銷電話等,將文字透過語音方式展現出來。和語音識別相比,語音合成的技術相對說來要成熟一些,並已開始大規模商用中。
語音合成最大的問題在2個方面:
1)文字規整、詞的切分、語法分析和語義分析。
舉個例子,“我是華人”,這句話包含“我”,“是”,“華人”三個詞或片語,主、謂、賓關係清晰,但是就現有技術水平來說,還有待提高,聽書軟體中,我們經常聽到的是勻速朗讀,沒有太明顯的斷句和片語切分。
2)缺少情感。
更多的是照本宣科式朗讀,情緒變化不明顯,聽起來比較生硬。在不同的語境下,語言和文字代表意思完全不同,導致音量、音色、持續長短等也有所不同。
總的來說,語音識別成熟度比語音識別、語義識別更好,推廣和商業化程度比較好,雖然一定程度上還存在不足,但隨著語法分析、語義分析技術的提升,這樣,語音合成效果也將會越來越好。
2 語音識別
一句話概括,透過識別和理解過程把語音訊號轉變為相應的文字或命令的技術。
目前市場主要集中政府行業,比如公安、司法(檢查院、法院)、邊檢等,常見於會議、刑訊、庭審、詢問等。同語音合成、語義識別比較來說,難度介於二者之間。
語音識別主要的產品主要有:
1)短語音,主要見於個人通訊,簡短交流等場合。
2)長語音,主要見於會議記錄等。
3)實時語音,主要用於一邊接收音訊資料,一邊提供轉寫結果,能夠實時獲取和利用文字資訊。
語音識別難點在於幾個方面:
1)識別準確率。據分析,電視臺/廣播電臺的播音員語音識別率平均約80-85%(當然,某些情況下也可能達到95%以上,這裡講的是平均水平),更別提一般普通人了。
2)環境造成的影響。比如車輛、工地、空調、會議噪聲等,會對語音識別有比較大的影響。
3)口音差異。各省各地方言差異較大,需要足夠的訓練集來訓練。
5)音調、音量、音色、聲音延長等,也會對結果造成很大的影響。
總的來說,語音識別效果可以逐步最佳化,行業應用中,儘量調整到最佳狀態。
3 語義識別
舉個通俗的例子來說明“語音識別”與“語義分析”在人工智慧技術層次上的不同:使用者對著電視機說一部具體的電影或者電視劇的全名,電視機會對使用者語音進行識別,自動搜尋片名、播放,這就是“語音識別”;但是,如果使用者對電視機說“一部愛情片”、“熱播的動作片”、“香港導演的電影”、“好萊塢大片”等模糊語句,電視機根據使用者的性別、愛好、平時的點播傾向等特徵來進行智慧的分析,並進行精準的推薦,這是“語義分析”,在智商上比“語音識別”高了好幾個層次,領先一大步。
常見的如智慧家居、車載語音、可穿戴裝置、VR、機器人等。
語義識別難點在於幾個方面:
1)詞序的變化,主謂關係的顛倒或省略。比如港臺片中的“我走先”,真正語法中是沒有此說法,但是這個叫法現在大家都懂,但是機器不懂。
2)語境的影響。
舉個生活中的一個例子,女朋友給男朋友打電話:
女:我在電影院門口等你,晚上7點鐘我沒有到的話,你等著;
女:我在電影院門口等你,晚上7點鐘你沒有到的話,你等著;
很明顯,語境稍有變化,導致的語義完全不同。
總的來說,語義識別最難,目前市面上雖然有部分產品試用,但還達不到大規模商用的水平。至於另外一個話題-聲紋識別,主要應用在公安、司法領域,用於取證和預警等,不在今天談論的範圍內。以後有機會再聊。
因為涉及到的問題比較多,我儘量以更通俗的語言來描述。
智慧語音包含幾個層面:1 語音合成;2 語音識別;3 語義識別。
1 語音合成
日常生活中更多的見於導航軟體、聽書軟體、銀行系統智慧語音機器人、推銷電話等,將文字透過語音方式展現出來。和語音識別相比,語音合成的技術相對說來要成熟一些,並已開始大規模商用中。
語音合成最大的問題在2個方面:
1)文字規整、詞的切分、語法分析和語義分析。
舉個例子,“我是華人”,這句話包含“我”,“是”,“華人”三個詞或片語,主、謂、賓關係清晰,但是就現有技術水平來說,還有待提高,聽書軟體中,我們經常聽到的是勻速朗讀,沒有太明顯的斷句和片語切分。
2)缺少情感。
更多的是照本宣科式朗讀,情緒變化不明顯,聽起來比較生硬。在不同的語境下,語言和文字代表意思完全不同,導致音量、音色、持續長短等也有所不同。
總的來說,語音識別成熟度比語音識別、語義識別更好,推廣和商業化程度比較好,雖然一定程度上還存在不足,但隨著語法分析、語義分析技術的提升,這樣,語音合成效果也將會越來越好。
2 語音識別
一句話概括,透過識別和理解過程把語音訊號轉變為相應的文字或命令的技術。
目前市場主要集中政府行業,比如公安、司法(檢查院、法院)、邊檢等,常見於會議、刑訊、庭審、詢問等。同語音合成、語義識別比較來說,難度介於二者之間。
語音識別主要的產品主要有:
1)短語音,主要見於個人通訊,簡短交流等場合。
2)長語音,主要見於會議記錄等。
3)實時語音,主要用於一邊接收音訊資料,一邊提供轉寫結果,能夠實時獲取和利用文字資訊。
語音識別難點在於幾個方面:
1)識別準確率。據分析,電視臺/廣播電臺的播音員語音識別率平均約80-85%(當然,某些情況下也可能達到95%以上,這裡講的是平均水平),更別提一般普通人了。
2)環境造成的影響。比如車輛、工地、空調、會議噪聲等,會對語音識別有比較大的影響。
3)口音差異。各省各地方言差異較大,需要足夠的訓練集來訓練。
5)音調、音量、音色、聲音延長等,也會對結果造成很大的影響。
總的來說,語音識別效果可以逐步最佳化,行業應用中,儘量調整到最佳狀態。
3 語義識別
舉個通俗的例子來說明“語音識別”與“語義分析”在人工智慧技術層次上的不同:使用者對著電視機說一部具體的電影或者電視劇的全名,電視機會對使用者語音進行識別,自動搜尋片名、播放,這就是“語音識別”;但是,如果使用者對電視機說“一部愛情片”、“熱播的動作片”、“香港導演的電影”、“好萊塢大片”等模糊語句,電視機根據使用者的性別、愛好、平時的點播傾向等特徵來進行智慧的分析,並進行精準的推薦,這是“語義分析”,在智商上比“語音識別”高了好幾個層次,領先一大步。
常見的如智慧家居、車載語音、可穿戴裝置、VR、機器人等。
語義識別難點在於幾個方面:
1)詞序的變化,主謂關係的顛倒或省略。比如港臺片中的“我走先”,真正語法中是沒有此說法,但是這個叫法現在大家都懂,但是機器不懂。
2)語境的影響。
舉個生活中的一個例子,女朋友給男朋友打電話:
女:我在電影院門口等你,晚上7點鐘我沒有到的話,你等著;
女:我在電影院門口等你,晚上7點鐘你沒有到的話,你等著;
很明顯,語境稍有變化,導致的語義完全不同。
總的來說,語義識別最難,目前市面上雖然有部分產品試用,但還達不到大規模商用的水平。至於另外一個話題-聲紋識別,主要應用在公安、司法領域,用於取證和預警等,不在今天談論的範圍內。以後有機會再聊。