Facebook的MelNet機器學習技術，能夠將人聲模仿得有多像？

首頁>Club>2021-04-06 22:54

Facebook的MelNet機器學習技術，能夠將人聲模仿得有多像？

回覆列表

1 # cnBeta

近年來，人工智慧技術的發展已經讓我們覺得有些可怕，而如何防止 AI 這把雙刃劍不被錯誤地使用，也引發了越來越激烈的探討。
比如 2017 年底冒出的 DeepFakes 影片換臉技術，就讓許多名人遭遇了虛假色情片的困擾。
現在，Facebook 工程師們又創造出了一個能夠惟妙惟肖地模仿比爾·蓋茨的語音 AI 。
【聲紋與波形資料對比，題圖 via TheVerge】

事實上，蓋茨只是 MelNet 可以模仿的多位人物中名氣最大的，其他“被克隆”的包括喬治·武井（George Takei）、珍·古德（Jane Goodall）、史蒂芬·霍金等人。

在下列剪輯中，你可以聽到一系列無害的句子，比如：

游泳時抽筋不是鬧著玩的（A cramp is no small danger on a swim）

同樣的話他說過三十遍（He said the same phrase thirty times）

摘下沒有葉子的鮮亮玫瑰（Pluck the bright rose without leaves）
2 加 7 小於 10（Two plus seven is less than ten）

上述每一段語音，都是由 Facebook 工程師設計建立的一個名為 MelNet 的機器學習系統生成的。那麼，用來訓練這套 ML 系統的資料，又是哪裡來的呢？

據悉，MelNet 分析了 452 小時的 STEM-y 類 TED 演講資料集，以及其它有聲讀物。

顯然，對機器學習系統來說，模仿這些人物慷慨激昂的演講方式，確實是一個不小的挑戰。

近年來，語音克隆的質量一直在穩步提升。比如近期播放的 Joe Rogan 複製品，就是一個極好的證明。

不過這一進展的大部分工作，可以追溯到 2016 年的 SampleRNN 和WaveNet 。
後者是由位於倫敦的人工智慧實驗室 DeepMind 建立的機器學習（ML）文字轉語音（TTS）轉換程式，該實驗室同時為 Google Assistant 智慧助理提供支援。

WaveNet 和 SampleRNN 之類的方案，就是為 AU 系統提供大量的資料，並用它來分析人生中的細微差別。

這些舊式 TTS 系統無法生成音訊，但可以重構 —— 將語音樣本切割成各種音訊元素，然後將之拼接到一起，來建立新的單詞。

不過當 WaveNet 等團隊利用音訊波形進行訓練時，Facebook 的 MelNet 卻用上了資訊更加密集的格式 —— 頻譜圖。

在一篇隨附的論文中，Facebook 研究人員指出，雖然 WaveNet 輸出的音訊保真度更高，但 MelNet 在捕捉“高階結構”方面更勝一籌。
MelNet 能夠模仿演講者聲音中包含的某種微妙的一致性，遺憾的是我們無法用文字來描述，但人耳聽起來確實更舒服。

Facebook 工程師稱，這是因為頻譜圖中捕獲的資料，較音訊波形中的資料更加緊湊。這種密度使得演算法能夠生成更加一致的語音，而不是波形記錄中被極端分散和磨練出來的細節。

當然，MelNet 也有一些限制，最總要的是無法複製人聲在較長一段時間內的變化，比如在文字段落上構建出來的戲劇性張力。

有趣的是，這類似於我們在 AI 生成的文字中見到的約束性，其只能實現表層、而非長期結構上的一致性。

撇開這些瑕疵不談，MelNet 已經足夠證明其強大的系統功能。它不僅可以生成逼真的人聲，還可以用於生成音樂（示例 1 2）。不過想要商業應用的話，還需要經過長時間的雕琢。

∧ 中秋節和大豐收的關聯？

∨ 全明星正賽艾弗森大金鍊子搶戲，有的NBA球星為何對金項鍊如此熱衷？

熱門排行

劇多

Facebook的MelNet機器學習技術，能夠將人聲模仿得有多像？