近年來,人工智慧技術的發展已經讓我們覺得有些可怕,而如何防止 AI 這把雙刃劍不被錯誤地使用,也引發了越來越激烈的探討。
現在,Facebook 工程師們又創造出了一個能夠惟妙惟肖地模仿比爾·蓋茨的語音 AI 。
【聲紋與波形資料對比,題圖 via TheVerge】
事實上,蓋茨只是 MelNet 可以模仿的多位人物中名氣最大的,其他“被克隆”的包括喬治·武井(George Takei)、珍·古德(Jane Goodall)、史蒂芬·霍金等人。
在下列剪輯中,你可以聽到一系列無害的句子,比如:
游泳時抽筋不是鬧著玩的(A cramp is no small danger on a swim)
同樣的話他說過三十遍(He said the same phrase thirty times)
摘下沒有葉子的鮮亮玫瑰(Pluck the bright rose without leaves)
2 加 7 小於 10(Two plus seven is less than ten)
上述每一段語音,都是由 Facebook 工程師設計建立的一個名為 MelNet 的機器學習系統生成的。那麼,用來訓練這套 ML 系統的資料,又是哪裡來的呢?
據悉,MelNet 分析了 452 小時的 STEM-y 類 TED 演講資料集,以及其它有聲讀物。
顯然,對機器學習系統來說,模仿這些人物慷慨激昂的演講方式,確實是一個不小的挑戰。
近年來,語音克隆的質量一直在穩步提升。比如近期播放的 Joe Rogan 複製品,就是一個極好的證明。
不過這一進展的大部分工作,可以追溯到 2016 年的 SampleRNN 和WaveNet 。
後者是由位於倫敦的人工智慧實驗室 DeepMind 建立的機器學習(ML)文字轉語音(TTS)轉換程式,該實驗室同時為 Google Assistant 智慧助理提供支援。
WaveNet 和 SampleRNN 之類的方案,就是為 AU 系統提供大量的資料,並用它來分析人生中的細微差別。
這些舊式 TTS 系統無法生成音訊,但可以重構 —— 將語音樣本切割成各種音訊元素,然後將之拼接到一起,來建立新的單詞。
不過當 WaveNet 等團隊利用音訊波形進行訓練時,Facebook 的 MelNet 卻用上了資訊更加密集的格式 —— 頻譜圖。
在一篇隨附的論文中,Facebook 研究人員指出,雖然 WaveNet 輸出的音訊保真度更高,但 MelNet 在捕捉“高階結構”方面更勝一籌。
MelNet 能夠模仿演講者聲音中包含的某種微妙的一致性,遺憾的是我們無法用文字來描述,但人耳聽起來確實更舒服。
Facebook 工程師稱,這是因為頻譜圖中捕獲的資料,較音訊波形中的資料更加緊湊。這種密度使得演算法能夠生成更加一致的語音,而不是波形記錄中被極端分散和磨練出來的細節。
當然,MelNet 也有一些限制,最總要的是無法複製人聲在較長一段時間內的變化,比如在文字段落上構建出來的戲劇性張力。
有趣的是,這類似於我們在 AI 生成的文字中見到的約束性,其只能實現表層、而非長期結構上的一致性。
撇開這些瑕疵不談,MelNet 已經足夠證明其強大的系統功能。它不僅可以生成逼真的人聲,還可以用於生成音樂(示例 1 2)。不過想要商業應用的話,還需要經過長時間的雕琢。
近年來,人工智慧技術的發展已經讓我們覺得有些可怕,而如何防止 AI 這把雙刃劍不被錯誤地使用,也引發了越來越激烈的探討。
比如 2017 年底冒出的 DeepFakes 影片換臉技術,就讓許多名人遭遇了虛假色情片的困擾。現在,Facebook 工程師們又創造出了一個能夠惟妙惟肖地模仿比爾·蓋茨的語音 AI 。
【聲紋與波形資料對比,題圖 via TheVerge】
事實上,蓋茨只是 MelNet 可以模仿的多位人物中名氣最大的,其他“被克隆”的包括喬治·武井(George Takei)、珍·古德(Jane Goodall)、史蒂芬·霍金等人。
在下列剪輯中,你可以聽到一系列無害的句子,比如:
游泳時抽筋不是鬧著玩的(A cramp is no small danger on a swim)
同樣的話他說過三十遍(He said the same phrase thirty times)
摘下沒有葉子的鮮亮玫瑰(Pluck the bright rose without leaves)
2 加 7 小於 10(Two plus seven is less than ten)
上述每一段語音,都是由 Facebook 工程師設計建立的一個名為 MelNet 的機器學習系統生成的。那麼,用來訓練這套 ML 系統的資料,又是哪裡來的呢?
據悉,MelNet 分析了 452 小時的 STEM-y 類 TED 演講資料集,以及其它有聲讀物。
顯然,對機器學習系統來說,模仿這些人物慷慨激昂的演講方式,確實是一個不小的挑戰。
近年來,語音克隆的質量一直在穩步提升。比如近期播放的 Joe Rogan 複製品,就是一個極好的證明。
不過這一進展的大部分工作,可以追溯到 2016 年的 SampleRNN 和WaveNet 。
後者是由位於倫敦的人工智慧實驗室 DeepMind 建立的機器學習(ML)文字轉語音(TTS)轉換程式,該實驗室同時為 Google Assistant 智慧助理提供支援。
WaveNet 和 SampleRNN 之類的方案,就是為 AU 系統提供大量的資料,並用它來分析人生中的細微差別。
這些舊式 TTS 系統無法生成音訊,但可以重構 —— 將語音樣本切割成各種音訊元素,然後將之拼接到一起,來建立新的單詞。
不過當 WaveNet 等團隊利用音訊波形進行訓練時,Facebook 的 MelNet 卻用上了資訊更加密集的格式 —— 頻譜圖。
在一篇隨附的論文中,Facebook 研究人員指出,雖然 WaveNet 輸出的音訊保真度更高,但 MelNet 在捕捉“高階結構”方面更勝一籌。
MelNet 能夠模仿演講者聲音中包含的某種微妙的一致性,遺憾的是我們無法用文字來描述,但人耳聽起來確實更舒服。
Facebook 工程師稱,這是因為頻譜圖中捕獲的資料,較音訊波形中的資料更加緊湊。這種密度使得演算法能夠生成更加一致的語音,而不是波形記錄中被極端分散和磨練出來的細節。
當然,MelNet 也有一些限制,最總要的是無法複製人聲在較長一段時間內的變化,比如在文字段落上構建出來的戲劇性張力。
有趣的是,這類似於我們在 AI 生成的文字中見到的約束性,其只能實現表層、而非長期結構上的一致性。
撇開這些瑕疵不談,MelNet 已經足夠證明其強大的系統功能。它不僅可以生成逼真的人聲,還可以用於生成音樂(示例 1 2)。不過想要商業應用的話,還需要經過長時間的雕琢。