嘿！機器人，請說人話

首頁>科技>IT創事記2020-12-22 07:55

嘿！機器人，請說人話

往往在放下手機之後你才會意識到，電話那頭的客服其實是個機器人；或者準確地說，是“一位”智慧客服。

沒錯，今天越來越多的工作正在被交給人工智慧技術去完成，文字轉語音（TTS，Text To Speech）就是其中非常成熟的一部分。它的發展，決定了今天我們聽到的許多“人聲”，是如此地逼真，以至於和真人發聲無異。

除了我們接觸最多的智慧客服，智慧家居中的語音助手、可以服務聽障人士的無障礙播報，甚至是新聞播報和有聲朗讀等服務，事實上都基於TTS這項技術。它是人機對話的一部分——簡單地說，就是讓機器說人話。

它被稱為同時運用語言學和心理學的傑出之作。不過在今天，當我們稱讚它的傑出時，更多的是因為它在線上語音生成中表現出的高效。

要提升語音合成效率當然不是一件容易的事。這裡的關鍵是如何讓神經聲碼器高效地用於序列到序列聲學模型，來提高TTS質量。

科學家已經開發出了很多這樣的神經網路聲碼器，例如WaveNet、Parallel WaveNet、WaveRNN、LPCNet 和 Multiband WaveRNN等，它們各有千秋。

WaveNet聲碼器可以生成高保真音訊，但在計算上它那巨大的複雜性，限制了它在實時服務中的部署；

LPCNet聲碼器利用WaveRNN架構中語音訊號處理的線性預測特性，可在單個處理器核心上生成超實時的高質量語音；但可惜，這對線上語音生成任務而言仍不夠高效。

科學家們希望TTS能夠在和人的“交流”中，達到讓人無感的順暢——不僅是語調上的熱情、親切，或冷靜；更要“毫無”延遲。

新的突破出現在騰訊。騰訊 AI Lab（人工智慧實驗室）和雲小微目前已經率先開發出了一款基於WaveRNN多頻帶線性預測的全新神經聲碼器FeatherWave。經過測試，這款高效高保真神經聲碼器可以幫助使用者顯著提高語音合成效率。

英特爾的工程團隊也參與到了這項開發工作中。他們把面向第三代英特爾至強可擴充套件處理器所做的最佳化進行了全面整合，並採用了英特爾深度學習加速技術（英特爾 DL Boost）中全新整合的 16 位 Brain Floating Point (bfloat16) 功能。

bfloat16是一個精簡的資料格式，與如今的32位浮點數（FP32）相比，bfloat16只通過一半的位元數且僅需對軟體做出很小程度的修改，就可達到與FP32同等水平的模型精度；與半浮點精度 (FP16) 相比，它可為深度學習工作負載提供更大的動態範圍；與此同時，它無需使用校準資料進行量化/去量化操作，因此比 INT8 更方便。這些優勢不僅讓它進一步提升了模型推理能力，還讓它能為模型訓練提供支援。

事實上，英特爾至強可擴充套件處理器本就是專為運行復雜的人工智慧工作負載而設計的。藉助英特爾深度學習加速技術，英特爾志強可擴充套件處理器將嵌入式 AI 效能提升至新的高度。目前，此種處理器現已支援英特爾高階向量擴充套件 512 技術（英特爾AVX-512 技術）和向量神經網路指令 (VNNI)。

在騰訊推出的全新神經聲碼器FeatherWave 聲碼器中，就應用了這些最佳化技術。

FeatherWave 聲碼器框圖

利用英特爾AVX-512技術和bfloat16指令，騰訊的科學家們確保了GRU模組和Dense運算子中粗略部分/精細部分的所有SGEMV計算都使用512位向量進行向量化，並採用bfloat16點積指令；對於按元素逐個加/乘等運算以及其他非線性啟用，都使用最新的英特爾AVX-512 指令執行。

在最終都效能測試中，透過最佳化，相同質量水平(MOS4.5)的文字轉語音速度比FP32提升了高達1.54倍。

此外，騰訊還以 GAN 和 Parallel WaveNet (PWaveNet)為基礎，推出了一種改進後的模型，並基於第三代英特爾至強可擴充套件處理器對模型效能進行了最佳化，最終使效能與採用FP32相比提升了高達1.89倍，同時質量水平仍保持不變 (MOS4.4)。

騰訊在TTS領域的進展顯示出了人工智慧領域的一個趨勢，那就是科學家們越來越多開始利用英特爾深度學習加速技術在CPU平臺上開展工作。

就像騰訊在針對TTS的探索中獲得了效能提升那樣，第二代和第三代英特爾至強可擴充套件處理器在集成了加速技術後，已經顯著提升了人工智慧工作負載的效能。

在更廣泛的領域內，我們已經能夠清楚地看到這種變化——在效率表現上，由於針對常見人工智慧軟體框架，如TensorFlow和PyTorch、庫和工具所做的最佳化，CPU平臺可以幫助保持較高的效能功耗比和價效比。

尤其是擴充套件性上，使用者在設計系統時可以利用如英特爾乙太網700系列，和英特爾傲騰記憶體儲存技術，來最佳化網路和記憶體配置。這樣一來，他們就可以在充分利用現有硬體投資的情況下，輕鬆擴充套件人工智慧訓練的工作負載，獲得更高的吞吐量，甚至處理巨大的資料集。

不止於處理器平臺本身，英特爾目前在面向人工智慧最佳化的軟體，以及市場就緒型人工智慧解決方案兩個維度，都建立起了差異化的市場優勢。

例如在軟體方面，英特爾2019年2月進行的 OpenVINO/ResNet50 INT8 效能測試顯示，使用 OpenVINO或TensorFlow和英特爾深度學習加速技術時，人工智慧推理效能可提高多達 3.75 倍。

今天，英特爾已經攜手解決方案提供商，構建了一系列的精選解決方案。這些方案預先進行了配置，並對工作負載進行了最佳化。這就包括瞭如基於人工智慧推理的英特爾精選解決方案，以及面向在面向在Apache Spark上執行的BigDL的英特爾精選解決方案等。

許多企業做出了這樣的選擇，GE醫療就是其中一家。作為GE集團旗下的醫療健康業務部門，它構建了一個人工智慧醫學影像部署架構。

透過採用英特爾至強可擴充套件處理器，和英特爾固態盤，以及多項英特爾關鍵技術——例如英特爾深度學習開發工具包，和麵向深度神經網路的英特爾數學核心函式庫等；GE醫療收穫了未曾預料到的成果：

這一解決方案最終比基礎解決方案的推理速度提升了多達14倍，且超過了GE原定推理目標5.9倍。

最新評論

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 寫給網際網路大佬的一封信

熱門排行

劇多

嘿！機器人，請說人話