為什麼AI語音不能用本地方言即時回答，我是說使用者本人的本地方言？？

首頁>Club>農村路也滑套路更復雜2021-01-16 13:22

為什麼AI語音不能用本地方言即時回答，我是說使用者本人的本地方言？？

回覆列表

1 # 亞心數碼

這其中涉及到了語音識別和轉換技術，語音識別技術，也被稱為自動語音識別Automatic Speech Recognition，(ASR)，其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入資料，例如按鍵、二進位制編碼或者字元序列。
與說話人識別及說話人確認不同，後者嘗試識別或確認發出語音的說話人而非其中所包含的詞彙內容。
簡單點說目前由於技術的原因，還無法做到完美識別語音輸入，語音轉換的難度就更大了。
再者，使用人的方言千變萬化，去過要將所有的方言都適配一遍，工作量也是非常大的，同時也是沒有必要的，畢竟用普通話回答，都能聽懂，各地方言回答使用範圍就小多了。

2 # 老劉石三

AI用語音回答，就發音這個環節，從語音技術上來說叫做語音合成，語音合成技術目前基本上是以機器學習技術為基礎。大體上來說，就是提供一定的量的語音資料，這些語音資料簡單來說就是文字和語音的對映；然後講這些資料透過機器學習做訓練，得出演算法模型；然後當有文字輸入的時候，透過演算法從模型中進行檢索和預測，輸出形成語音流，這就是整個演算法的過程。
那麼要想使得輸出具備某種方言能力，或者某種口音，或者某種口音的方言，依據目前的技術，就需要進行該特定語音的訓練資料，而且訓練資料還比較多。

就目前進行語音合成的訓練資料量一般來說是上千條文字，每條文字需要有不同語速不同聲調的副本。這樣就很難完成，使用“本人的本地方言”這個目標了。

當然，我們看到現在人臉識別，針對一張臉，現在甚至只需要拍攝一張照片，就可以達到精準的識別。怎麼做到的呢，是因為影象識別技術的發展，在前處理、後處理、演算法模型上都得到了很大的發展，一張圖片，就可以換算出非常多的場景，就可以讓演算法模型更加準確，以至於做到精準識別。

當然，就語音合成和識別，範圍更加廣，場景更多，只說一句話很難達到學會方言的目的。那麼是否能夠，給出一段文章，讓待模仿人讀一兩遍，就可以完成訓練的目的，以至於學會某人的某種地方口音呢？
我覺得是完全有可能的，期待人工智慧的快速發展，帶來更多有效的應用，幫助人們解決各種問題吧。
3 # 賈梓筠

這個問題是一個系統工程的問題，不僅僅是ASR及TTS單點的問題。
ASR：自動語音識別技術（Automatic Speech Recognition）TTS：語音合成（Text To Speech）語料及模型訓練
ASR、TTS作為語音AI產品主要的輸入和輸出方式，是需要一個基於一定量資料的標註訓練過程，流程中各個基於NLP處理的環節同理。目前多數的模型是需要基於較大資料量的，如果要解決差異很大的方言，那麼就需要n*m資料以及對應的標註量。
同時，各地方言不僅僅只是發音上的不同，還有詞彙、語序、省略等各種語言習慣。

為了保證標註質量，避免錯標、亂標，經常還需要多次標註，這樣就變成了m*n*p（並非表達嚴格邏輯，只是示意）。

僅從這幾點，支援方言就需要大量各地的本地人的人力支援，以及非常龐雜的工作量、管理投入才能做到第一步。
方言判斷
如果一些公司搞定了識別方言和輸出方言的演算法問題，那麼接下來就是如何判斷該用什麼方言。如果要做到因人而異，那麼就需要所有使用者都首先錄入聲紋，AI先透過聲紋判斷說話人是誰，再透過對應這個人預設的方言進行識別和回覆。舉個例子，如果你預設是AI接收四川話，這時你對它說普通話，如果沒做好額外容錯的話，那麼可能無法識別這句普通話。
人判斷應當說方言還是應當說普通話的邏輯，主要是看聽者的身份，AI實際上也是這樣的邏輯判斷，但是AI獲取資訊的手段更少，需要更加海量的資料支援，才能做到自動，還不一定能對，所以還是設定一下最靠譜。
系統工程
AI對話的後端也有一個非常龐大的系統支援，方言這一邏輯的加入，每一個環節都可能遇到類似上述問題，從而使整個專案開發運營的難度都上升。
成本考慮
目前會主動使用語音技術的人群，多數是普通話群體，處理各地方言解決的問題有限，但成本巨大，如果支援，可能也只是個別功能上的支援，無法做到有限成本內的廣泛方言的支援。

同時，AI之所以能夠很好地回答各種問題，幕後是有非常多開發和運營人員的支援，為了支援方言而讓龐大的團隊捨棄更有價值的需求，也是划不來的。
總結
基於上面簡單列舉的幾個點，基本可以總結出：

1、語音對話AI產品普通話群體還是絕大多數；

2、用本地方言即時回答不是做不出，而是成本巨大，收效甚微；

3、如果要做到部分方言識別、方言回答等，產品體驗難以保障。

4 # 文海之浪233

不同的語音系統需要不同的程式碼，機器識別可不如人腦。
官話內部八大次方言可能至少需要八套不同的程式碼。此外，非官話區的方言需要的程式碼更多，甚至在某種方言內部，比如吳語，還需要多套程式碼分別對應太湖片，金衢片，甌江片，上麗片，杭州小片，上海小片等等。

∧ 中秋節和大豐收的關聯？

∨ 親子游有必要每年都去嗎？

熱門排行

劇多

為什麼AI語音不能用本地方言即時回答，我是說使用者本人的本地方言？ ？

為什麼AI語音不能用本地方言即時回答，我是說使用者本人的本地方言？？