回覆列表
  • 1 # 亞心數碼

    這其中涉及到了語音識別和轉換技術,語音識別技術,也被稱為自動語音識別Automatic Speech Recognition,(ASR),其目標是將人類的語音中的詞彙內容轉換為計算機可讀的輸入資料,例如按鍵、二進位制編碼或者字元序列。

    與說話人識別及說話人確認不同,後者嘗試識別或確認發出語音的說話人而非其中所包含的詞彙內容。

    簡單點說目前由於技術的原因,還無法做到完美識別語音輸入,語音轉換的難度就更大了。

    再者,使用人的方言千變萬化,去過要將所有的方言都適配一遍,工作量也是非常大的,同時也是沒有必要的,畢竟用普通話回答,都能聽懂,各地方言回答使用範圍就小多了。

  • 2 # 老劉石三

    AI用語音回答,就發音這個環節,從語音技術上來說叫做語音合成,語音合成技術目前基本上是以機器學習技術為基礎。大體上來說,就是提供一定的量的語音資料,這些語音資料簡單來說就是文字和語音的對映;然後講這些資料透過機器學習做訓練,得出演算法模型;然後當有文字輸入的時候,透過演算法從模型中進行檢索和預測,輸出形成語音流,這就是整個演算法的過程。

    那麼要想使得輸出具備某種方言能力,或者某種口音,或者某種口音的方言,依據目前的技術,就需要進行該特定語音的訓練資料,而且訓練資料還比較多。

    就目前進行語音合成的訓練資料量一般來說是上千條文字,每條文字需要有不同語速不同聲調的副本。這樣就很難完成,使用“本人的本地方言”這個目標了。

    當然,我們看到現在人臉識別,針對一張臉,現在甚至只需要拍攝一張照片,就可以達到精準的識別。怎麼做到的呢,是因為影象識別技術的發展,在前處理、後處理、演算法模型上都得到了很大的發展,一張圖片,就可以換算出非常多的場景,就可以讓演算法模型更加準確,以至於做到精準識別。

    當然,就語音合成和識別,範圍更加廣,場景更多,只說一句話很難達到學會方言的目的。那麼是否能夠,給出一段文章,讓待模仿人讀一兩遍,就可以完成訓練的目的,以至於學會某人的某種地方口音呢?

    我覺得是完全有可能的,期待人工智慧的快速發展,帶來更多有效的應用,幫助人們解決各種問題吧。

  • 3 # 賈梓筠

    這個問題是一個系統工程的問題,不僅僅是ASR及TTS單點的問題。

    ASR:自動語音識別技術(Automatic Speech Recognition)TTS:語音合成(Text To Speech)語料及模型訓練

    ASR、TTS作為語音AI產品主要的輸入和輸出方式,是需要一個基於一定量資料的標註訓練過程,流程中各個基於NLP處理的環節同理。目前多數的模型是需要基於較大資料量的,如果要解決差異很大的方言,那麼就需要n*m資料以及對應的標註量。

    同時,各地方言不僅僅只是發音上的不同,還有詞彙、語序、省略等各種語言習慣。

    為了保證標註質量,避免錯標、亂標,經常還需要多次標註,這樣就變成了m*n*p(並非表達嚴格邏輯,只是示意)。

    僅從這幾點,支援方言就需要大量各地的本地人的人力支援,以及非常龐雜的工作量、管理投入才能做到第一步。

    方言判斷

    如果一些公司搞定了識別方言和輸出方言的演算法問題,那麼接下來就是如何判斷該用什麼方言。如果要做到因人而異,那麼就需要所有使用者都首先錄入聲紋,AI先透過聲紋判斷說話人是誰,再透過對應這個人預設的方言進行識別和回覆。舉個例子,如果你預設是AI接收四川話,這時你對它說普通話,如果沒做好額外容錯的話,那麼可能無法識別這句普通話。

    人判斷應當說方言還是應當說普通話的邏輯,主要是看聽者的身份,AI實際上也是這樣的邏輯判斷,但是AI獲取資訊的手段更少,需要更加海量的資料支援,才能做到自動,還不一定能對,所以還是設定一下最靠譜。

    系統工程

    AI對話的後端也有一個非常龐大的系統支援,方言這一邏輯的加入,每一個環節都可能遇到類似上述問題,從而使整個專案開發運營的難度都上升。

    成本考慮

    目前會主動使用語音技術的人群,多數是普通話群體,處理各地方言解決的問題有限,但成本巨大,如果支援,可能也只是個別功能上的支援,無法做到有限成本內的廣泛方言的支援。

    同時,AI之所以能夠很好地回答各種問題,幕後是有非常多開發和運營人員的支援,為了支援方言而讓龐大的團隊捨棄更有價值的需求,也是划不來的。

    總結

    基於上面簡單列舉的幾個點,基本可以總結出:

    1、語音對話AI產品普通話群體還是絕大多數;

    2、用本地方言即時回答不是做不出,而是成本巨大,收效甚微;

    3、如果要做到部分方言識別、方言回答等,產品體驗難以保障。

  • 4 # 文海之浪233

    不同的語音系統需要不同的程式碼,機器識別可不如人腦。

    官話內部八大次方言可能至少需要八套不同的程式碼。此外,非官話區的方言需要的程式碼更多,甚至在某種方言內部,比如吳語,還需要多套程式碼分別對應太湖片,金衢片,甌江片,上麗片,杭州小片,上海小片等等。

  • 中秋節和大豐收的關聯?
  • 親子游有必要每年都去嗎?