如何解決人工智慧的智慧語音問題？

首頁>Club>2021-02-15 02:17

如何解決人工智慧的智慧語音問題？

回覆列表

1 # 大蝦王哥

因為涉及到的問題比較多，我儘量以更通俗的語言來描述。

智慧語音包含幾個層面：1 語音合成；2 語音識別；3 語義識別。

1 語音合成

日常生活中更多的見於導航軟體、聽書軟體、銀行系統智慧語音機器人、推銷電話等，將文字透過語音方式展現出來。和語音識別相比，語音合成的技術相對說來要成熟一些，並已開始大規模商用中。
語音合成最大的問題在2個方面：

1）文字規整、詞的切分、語法分析和語義分析。

舉個例子，“我是華人”，這句話包含“我”，“是”，“華人”三個詞或片語，主、謂、賓關係清晰，但是就現有技術水平來說，還有待提高，聽書軟體中，我們經常聽到的是勻速朗讀，沒有太明顯的斷句和片語切分。

2）缺少情感。

更多的是照本宣科式朗讀，情緒變化不明顯，聽起來比較生硬。在不同的語境下，語言和文字代表意思完全不同，導致音量、音色、持續長短等也有所不同。

總的來說，語音識別成熟度比語音識別、語義識別更好，推廣和商業化程度比較好，雖然一定程度上還存在不足，但隨著語法分析、語義分析技術的提升，這樣，語音合成效果也將會越來越好。
2 語音識別

一句話概括，透過識別和理解過程把語音訊號轉變為相應的文字或命令的技術。

目前市場主要集中政府行業，比如公安、司法（檢查院、法院）、邊檢等，常見於會議、刑訊、庭審、詢問等。同語音合成、語義識別比較來說，難度介於二者之間。

語音識別主要的產品主要有：

1）短語音，主要見於個人通訊，簡短交流等場合。

2）長語音，主要見於會議記錄等。

3）實時語音，主要用於一邊接收音訊資料，一邊提供轉寫結果，能夠實時獲取和利用文字資訊。

語音識別難點在於幾個方面：

1）識別準確率。據分析，電視臺/廣播電臺的播音員語音識別率平均約80-85%（當然，某些情況下也可能達到95%以上，這裡講的是平均水平），更別提一般普通人了。
2）環境造成的影響。比如車輛、工地、空調、會議噪聲等，會對語音識別有比較大的影響。

3）口音差異。各省各地方言差異較大，需要足夠的訓練集來訓練。

5）音調、音量、音色、聲音延長等，也會對結果造成很大的影響。

總的來說，語音識別效果可以逐步最佳化，行業應用中，儘量調整到最佳狀態。

3 語義識別

舉個通俗的例子來說明“語音識別”與“語義分析”在人工智慧技術層次上的不同：使用者對著電視機說一部具體的電影或者電視劇的全名，電視機會對使用者語音進行識別，自動搜尋片名、播放，這就是“語音識別”;但是，如果使用者對電視機說“一部愛情片”、“熱播的動作片”、“香港導演的電影”、“好萊塢大片”等模糊語句，電視機根據使用者的性別、愛好、平時的點播傾向等特徵來進行智慧的分析，並進行精準的推薦，這是“語義分析”，在智商上比“語音識別”高了好幾個層次，領先一大步。
常見的如智慧家居、車載語音、可穿戴裝置、VR、機器人等。

語義識別難點在於幾個方面：

1）詞序的變化，主謂關係的顛倒或省略。比如港臺片中的“我走先”，真正語法中是沒有此說法，但是這個叫法現在大家都懂，但是機器不懂。

2）語境的影響。

舉個生活中的一個例子，女朋友給男朋友打電話：

女：我在電影院門口等你，晚上7點鐘我沒有到的話，你等著；

女：我在電影院門口等你，晚上7點鐘你沒有到的話，你等著；

很明顯，語境稍有變化，導致的語義完全不同。

總的來說，語義識別最難，目前市面上雖然有部分產品試用，但還達不到大規模商用的水平。至於另外一個話題-聲紋識別，主要應用在公安、司法領域，用於取證和預警等，不在今天談論的範圍內。以後有機會再聊。

∧ 中秋節和大豐收的關聯？

∨ 什麼是“臨兵鬥者皆陣列在前”？

熱門排行

劇多

如何解決人工智慧的智慧語音問題？