在自然語言處理領域，文字轉語音（TTS）技術有什麼最新進展？

首頁>Club>Arphetian2021-03-13 03:38

在自然語言處理領域，文字轉語音（TTS）技術有什麼最新進展？

回覆列表

1 # 姚文松的投資筆記

錯誤持續更新中（第一版回答只包括前四個），這些錯誤本身就很具啟發性：

1）速率（shuai4）

2）重（zhong4）寫協議

3）討價還（hai2）價

4）便（bian4）宜

5）得（dei3）到

6）長（zhang3）期

7）目的（de）
8）剝（bao1）削（xiao1）

9）調（diao4）節/ 強調（tiao2）（“調”的錯誤很有趣，兩個音都出現過）

10）目的（de）

11）假（jia4）設

12）沒（mei2）收

13）銀行（xing2）

14）要（yao4）求

15）任（ren2）何

16）發人深省（sheng3）

這不是自動生成的語音是否自然流暢，接近人類朗讀的苛刻標準，而是是否能夠達到不影響語義理解的正確程度的基本要求。

解決方案也不難，

1）技術方案：使用人工朗讀語料中的詞彙進行修正，而不是執著於單字；

2）眾包方案：在應用程式中，透過獎勵，激勵使用者對錯誤進行標記反饋；
這麼初級的解決方案，鵝廠這樣世界級的企業都無法開展，大概這個方向還是個邊緣的，缺少產品經理和研發經費的冷門領域吧。

長得像就叫不對，實在算不上高水平。

2 # 你看我獨角獸嗎

Microsoft正在為Azure認知服務的神經文字語音轉換（TTS）功能新增新的語音樣式和情感變化。語音應用程式和服務開發人員的軟體工具現在包括新聞廣播，客戶服務和數字助理語音，並根據所使用的語言提供情感方法選項。
語音選項
開發人員可以將三種新語音選項中的任何一種應用於英語或中文AI。根據Microsoft的說法，這些名稱反映了它們可能相當準確地使用的名稱。例如，新聞廣播風格可能會模仿新聞主播的講話方式，從而有助於閱讀文章。
客戶支援選項嘗試提供一種更友好的語調，企業可能希望該員工使用它來接聽電話。數字助理樣式有兩種形式，正式版本和臨時版本都適用於客戶希望包含它們的任何地方。

“隨著新的款式，新聞廣播，客戶服務，以及數字助理，開發者可以定製自己的應用程式和服務的聲音，以適應自己的品牌或獨特的場景，”微軟在部落格中解釋後宣佈新的選擇。“基於強大的基礎模型，我們的神經TTS語音非常自然，可靠且富有表現力。透過轉移學習，神經性TTS模型可以從各種說話者那裡學習不同的說話風格，從而使聲音細膩。”

定製的情感選項還旨在以適合其使用的方式使AI聲音聽起來更人性化。對於中文語音，現在有一個“抒情”選項，Microsoft稱其聽起來發自內心，可以處理散文或詩歌。英語聲音的情緒更加直接，可以同情或愉快地說話。微軟還給了巴西葡萄牙語一個歡快的情感選擇。
這些新功能符合Microsoft對企業語音AI的關注。該公司幾乎已經完成了從消費者方面的轉移，結束了其大部分Cortana語音助手的服務。Android和iOS 的Cortana應用程式現在也已關閉，除美國外，它在實驗和對Surface耳機的支援方面的實用性使其保持活力。Cortana現在充當Office 365的一個方面，但是Microsoft正在投資，將其語音AI技術帶給其他希望使用語音平臺與客戶進行互動的公司。
聲樂比賽
微軟的新功能將需要與谷歌和亞馬遜已經迅速擴充套件的選項選單競爭。兩家公司都為開發人員創造了設計他們希望客戶分別在Google Assistant和Alexa上聽到的聲音的方法。亞馬遜最近跳進環與品牌聲音，一個服務，提供多種聲音和情感範圍和作品與品牌進行簽名的聲音就像山德士上校的聲音肯德基。亞馬遜還一直在透過開發塞繆爾·傑克遜（Samuel L. Jackson）語音Alexa語音選項來展示其對自定義語音的功能。
Google的TTS服務使用WaveNet技術提供了數十種語音選項，包括標準語音和合成語音。該公司還一直在擴充套件除美國英語之外的其他語言的語音選項，包括德語，韓語，義大利語以及英國和印度英語。Google助手通常位於理解口音的最前沿，因此，改善不同語言的聲音的多樣性可能會導致更大的地區差異。
3 # 機器之心Pro

神經網路文字轉語音（TTS）是自然語言處理領域的重要方向，很多谷歌的產品（如 Google Assistant、搜尋、地圖）都內建了這樣的功能。目前的系統已經可以產生接近人聲的語音，但仍然顯得不夠自然。在最近發表的兩篇論文中，谷歌為自己的 Tacotron 系統加入了對韻律學的建模，以幫助人們利用自己的聲音進行個性化語音合成。
最近，谷歌在基於神經網路的文字轉語音（TTS）的研究上取得重大突破，尤其是端到端架構，比如去年推出的 Tacotron 系統，可以同時簡化語音構建通道併產生自然的語音。這有助於更好地實現人機互動，比如會話式語音助手、有聲讀物朗誦、新聞閱讀器和語音設計軟體。但是為了實現真正像人一樣的發音，TTS 系統必須學習建模韻律學（prosody），它包含語音的所有表達因素，比如語調、重音、節奏等。最新的端到端系統，包括 Tacotron 在內，並沒有清晰地建模韻律學，這意味著它們無法精確控制語音的發聲。這致使語音聽起來很單調，儘管模型是在字詞發音有明顯變化的極具表現力的資料集上訓練的。今天，谷歌共享了兩篇新論文，有助於解決上述問題。
谷歌 Tacotron 的第一篇論文《Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron》介紹了「韻律學嵌入」（prosody embedding）的概念。我們加強了附有韻律學編碼器的 Tacotron 架構，可以計算人類語音片段（參考音訊）中的低維度嵌入。

我們為 Tacotron 增加了一個韻律學編碼器。上圖的下半部分是原始的 Tacotron 序列到序列模型。技術細節請詳見我們的第一篇論文。

該嵌入捕捉獨立於語音資訊和特殊的說話者特質的音訊特徵，比如重音、語調、語速。在推理階段，我們可以使用這一嵌入執行韻律學遷移，根據一個完全不同的說話者的聲音生產語音，但是體現了參考音訊的韻律。
嵌入也可以將時間對齊的精確韻律從一個短語遷移到稍微不同的短語，儘管當參考短語和目標短語的長度和結構相似時，該技術效果最好。

令人激動的是，甚至當 Tacotron 訓練資料不包含說話者的參考音訊時，我們也可以觀察到韻律遷移。

這是一個很有希望的結果，它為語音互動設計者利用自己的聲音自定義語音合成鋪平了道路。你可以從網頁上試聽所有的音訊。

Demo 連結：https://google.github.io/tacotron/publications/end_to_end_prosody_transfer/。

儘管有能力遷移帶有高保真度的韻律，上述論文中的嵌入並沒有將參考音訊片段中的韻律與內容分開。（這解釋了為什麼遷移韻律對相似結構和長度的短語效果最佳）此外，它們在推斷時需要一個參考音訊片段。這引起了一個自然的問題：我們可以開發一個富有表現力的語音模型來緩解這些問題嗎？
這正是我們在第二篇論文《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》中所要做的。在第一篇論文的架構之上，我們提出了一種建模潛在語音「因素」的無監督新方法。這一模型的關鍵是其學習的是較高層的說話風格模式而不是時間對齊的精確的韻律學元素，前者可在任意不同的短語之中遷移。

透過向 Tacotron 多增加一個注意機制，使得它將任何語音片段的韻律嵌入表達為基礎嵌入固定集合的線性組合。我們把這種嵌入稱之為 Global Style Tokens (GST)，且發現它們能學習一個聲紋風格中的文字無關變化（柔軟、高音調、激烈等）——不需要詳細的風格標籤。
Global Style Tokens 的模型架構。韻律嵌入被分解成了「style tokens」，從而做到無監督的風格控制和遷移。更多技術細節，請檢視文後論文。

在推理時間，我們可以選擇或者調整 tokens 的結合權重，讓我們能夠迫使 Tacotron 使用特定的說話風格，不需要參考語音片段。例如，使用 GST，我們能創造出語音長度多樣化的不同語句，更為「活潑」、「氣憤」、「悲傷」等：

GST 文字無關的特性使得它們能更理想的做風格遷移，採用特定風格的語音片段，將其風格轉換為我們選擇的任意目標語句。為了做到這一點，我們首先推理預測我們想要模仿風格的 GST 組合權重。然後，把這些組合權重饋送到模型，從而合成完整的不同語句，即使長度、結構不同，但風格一樣。
最後，我們的論文表明，Global Style Tokens 不只能建模說話風格。當從 YouTube 未標記聲紋的噪聲語音上訓練時，帶有 GST 的 Tacotron 系統能學習表示噪聲源，把不同聲紋區分成獨立 tokens。這意味著透過選擇在推理中使用的 GST，我們能合成沒有背景噪聲的語音，或者合成數據集中特定未標記聲紋的語音。這一激動人心的成果為我們打開了一條通向高延展且穩健的語音合成之路。詳情可參見論文：Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis。

對以上介紹的兩種研究的潛在應用和機遇，我們非常興奮。同時，也有很多重要的研究問題亟待解決。我們期望把第一篇論文中的技術擴充套件到在目標聲紋的天然音域範圍中支援韻律遷移。我們也希望開發一種技術能夠自動從語境中選擇合適的韻律或者說話風格，例如結合 NLP 和 TTS。最後，雖然第一篇論文提出了一種做韻律遷移的客觀與主觀標準，但我們想要進一步的開發，從而幫助簡歷韻律評估的普遍可接受方法。
論文 1：Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

論文連結：https://google.github.io/tacotron/publications/end_to_end_prosody_transfer/Towards%20End%20to%20End%20Prosody%20Transfer%20for%20Expressive%20Speech%20Synthesis%20with%20Tacotron.pdf

在此論文中，我們提出了對 Tacotron 語音合成架構的擴充套件，讓它能夠從包含想要韻律的聲學表徵中學習韻律的隱藏嵌入空間。我們表明，即使參照聲紋與合成聲紋不同，這種條件的 Tracotron 學習嵌入空間合成的語音在時間細節上極其匹配參照訊號。此外，我們在文中展示了可使用參照韻律嵌入來合成不同於參照語句的文字。我們定義了多種定量以及主觀性的度量標準，來評估韻律遷移，且隨韻律遷移任務中的 Tacotron 模型取樣自單個說話人和 44 個說話人的語音樣本一起報告了結果。
論文 2：Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

論文連結：https://google.github.io/tacotron/publications/global_style_tokens/Style%20Tokens%20Unsupervised%20Style%20Modeling%20Control%20and%20Transfer.pdf

在此研究中，我們提出了 global style tokens」(GST)，一個由 Tacotron 共同訓練的嵌入庫——後者是目前業內最佳的端到端語音合成系統。該嵌入的訓練沒有明確的標籤，但仍然為相當廣泛的語音表達能力進行了建模。GST 引出了一系列重要結果，其生成的軟可解釋「標籤」可以用於以全新的方式控制合成，如獨立於文字長度地合成不同速度與講話語調的聲音。它們也可以用於進行風格遷移，從單一語音剪輯中複製出說話風格，並用於整段長文字語料中。在經過充滿噪音、無標籤的資料訓練之後，GST 可以學會區分噪音和說話人的聲音，該研究為高度可擴充套件且具有魯棒性的語音合成打開了道路。
同時，谷歌也於昨天將自己的語音合成技術在 Google Cloud 平臺上開放，我們現在可以在多種應用中植入 Cloud Text-to-Speech，如讓物聯網裝置對人類的指令做出應答，或製作自己的有聲讀物。

連結：https://cloud.google.com/text-to-speech/

目前，該服務包含 32 種音色，支援 12 種語言。谷歌宣稱其服務對 1 秒鐘時長的語音反應速度僅為 50 毫秒，而價格為每處理 100 萬字 16 美元。

4 # 羊群驢

什麼進展？你用一下科大訊飛的海豚有聲就知道了。什麼谷歌的狗屁玩意兒，谷歌呢？那玩意兒根本不好用。文字轉語音科大訊飛技術世界第一。不管是漢語，英語，日語，韓語，什麼語都可以轉換，非常流暢好聽。

劇多

在自然語言處理領域，文字轉語音（TTS）技術有什麼最新進展？

相關內容