DeepMind技術加持，谷歌用 WaveNetEQ 改善 Duo 音訊丟包情況

首頁>科技>事事事難料2020-04-15 12:25

DeepMind技術加持，谷歌用 WaveNetEQ 改善 Duo 音訊丟包情況

隨著 4G、5G 通訊技術發展，網路通話越來越盛行。但是網路不穩定是常態，所以通話中我們時不時可能會蹦出一句，“你能再重複一遍嗎，剛剛網路不太好。”

為了提高通話品質，谷歌近期在視訊聊天應用 Duo 中應用了一種新技術 WaveNetEQ ，在出現音訊丟包情況時，該技術會判斷丟失的音訊資料可能是什麼，並替換掉它，背後的技術支援來自谷歌聲名在外的 DeepMind 團隊。

一個完整的線上呼叫，資料經常會被分成多個小塊，每小塊就是一個數據包 packet 。然而，在這些“資料包”從傳送方傳輸到接收方的過程中，資料包通常會以錯誤的順序到達，從而產生抖動相關問題，或者直接丟失，造成音訊空白。

谷歌給出一份資料顯示， Duo 99% 的通話都有資料包丟失、過度抖動或網路延遲情況。20% 的通話丟失了超過 3% 的音訊，10% 的通話丟包率超過 8% ，也就是說每次通話都有很多音訊需要替換。

每個視音訊 app 都會用某種方式處理丟包。谷歌表示，這些資料包丟失隱藏 (PLC) 過程可能很難更好地填補 60 毫秒或更長時間的空白。過去常用演算法是 NetEQ ，這是 webRTC 中音訊技術方面的兩大核心技術之一（另一核心技術是音訊的前後處理，包括 AEC、ANS、AGC 等）。webRTC 是谷歌收購 GIPS 再開源的，是目前影響力極大的實時音視訊通訊解決方案，但用它處理丟包，大多情況下聽起來像機器人或機械重複。

谷歌就用了大量的語音資料，訓練出了基於 DeepMind WaveRNN 技術的 WaveNetEQ 模型。訓練資料集來自 100 多名、48 種不同語言的志願者，也就是說它可以自動填補 48 種語言的丟包情況。

WaveNetEQ 是一種用於語音合成的遞迴神經網路模型，由兩部分組成，即自迴歸網路（autoregressive network）和條件網路（conditioning network）。自迴歸網路的作用是保持訊號的平穩流動，而條件網路控制和影響自迴歸網路以保持音訊一致性。

谷歌用 WaveNetEQ 取代了原來的 NetEQ PLC 元件，相對於 NetEQ ，它在聲音質感方面無疑有提升，而且 WaveNetEQ 模型跑得足夠快，可以在手機上執行，如此也可以規避使用者可能擔心的資料隱私問題。谷歌稱所有的處理都是在裝置上進行，因為 Duo 的通話預設情況下就是端到端加密。一旦通話的真實音訊恢復，將無縫地切換到現實對話。

不過，WaveNetEQ 替換的內容和時長有限制。目前是支援在 120 毫秒以內的空白，之後會逐漸消失並歸零；WaveNetEQ 不是生成完整的單詞，而是簡單的音節。

目前 WaveNetEQ 已經應用到 Pixel 4 手機上的 Duo APP 中，谷歌表示，它正在將其推廣到其他安卓手機上。

雷鋒網了解到，當然用機器學習處理音訊丟包並不是頭一遭，許多公司都在研究相關技術，以國內公司為例，有些是自身業務本就涉及視音訊，比如騰訊；有些是音視訊雲服務商，比如阿里，還有一些是專門的音視訊第三方服務商如聲網等。