人工智慧的影響力正在不斷加深。如今,越來越多企業加入到了數字化轉型的道路上,這場變革讓行業的智慧化水平不斷提高。在新基建的引導下,人工智慧技術逐漸成為數字經濟發展的新動能,同時也為企業的轉型升級注入強大動力。資料顯示,到2021年將會有75%的企業應用整合人工智慧。
AI語音是人工智慧技術最廣泛的應用,它架起了人類與數字世界之間最簡單有效的溝通橋樑。在這樣的背景下,越來越多的科技企業與初創企業進軍智慧語音市場,而騰訊作為人工智慧創新的引領者,打造出雲小微智慧語音與影片服務接入平臺,全方位賦能行業轉型。
為了最大化釋放雲小微平臺的價值與能力,騰訊與英特爾合作,共同構建定製化Parallel WaveNet(pWaveNet)聲碼器模型解決方案以及定製化WaveRNN聲碼器模型解決方案,對平臺進行深度最佳化,不僅為雲小微提供了突出的語音合成效能,而且還有效降低了使用者總擁有成本(TCO),讓更多企業可以體驗到先進的智慧語音服務。
產業新風智慧語音的星辰大海
AI正在變得無處不在。在新一輪產業變革中,人工智慧技術發揮了愈加重要的作用,作為加速數字化轉型實踐的核心驅動力,人工智慧的發展對社會經濟和人類生活都產生了十分深遠的影響。
人工智慧與場景結合賦能產業升級,在這個過程中,越來越多的AI應用出現,其中,智慧語音的增長最為突出。
近年來,隨著實體經濟與數字經濟的深度融合,人工智慧技術也在越來越多的行業中落地,成為行業數字化升級的基石。作為人工智慧最常見的應用,企業透過AI語音互動技術與自身業務發展及商業模式相結合,開發出更具視覺效應的IP形象。這些AI助手成為企業的“數字員工”,來幫助企業更好地服務使用者。
人工智慧在各行業加速落地,而各新興智慧產品企業也在基於智慧語音合成技術,來研發各種智慧語音,如語音導航、智慧客服、有聲讀物、智慧語音輸入與識別等。越來越多的智慧語音出現,讓人工智慧市場更加繁榮,也推進著AI創新的發展。資料顯示,我國智慧語音市場規模在2021年可達194.8億元。
智慧語音應用打通了人機互動的閉環,可以讓使用者獲得更多生活上的便利。然而在實際應用中,智慧語音應用也逐漸顯現出一些問題。一方面,智慧語音產品越來越多,但能力參差不齊,操作方式也不同,“智慧”反而成了一種累贅;另一方面,智慧語音應用與現實場景的結合往往會面臨很多額外的“干擾項”。比如在智慧交通領域,車載語音識別就會受到口音、噪聲、場景化語音等多個變數的影響,從而影響識別的準確度。
要解決這些問題,一是統一研發平臺,二是提高平臺語音合成技術能力。基於此,騰訊推出雲小微智慧語音與影片服務接入平臺,透過結合全棧語音語義AI能力和騰訊雲服務,不僅能夠為使用者輸出高品質AI平臺能力,還可以依託騰訊豐富的產品線和大資料能力,幫助使用者獲得整合騰訊中臺能力的豐富場景應用方案。
聯合定製騰訊雲小微賦能產業升級
騰訊雲小微是一個以基於神經網路聲碼器模型的TTS(Text To Speech)合成技術為核心能力的智慧語音與影片服務接入平臺,它能夠透過端到端聲學模型,來實現文字到語音的高質量轉化與表達。
TTS語音合成技術是人機溝通的關鍵性技術之一,它可以將外部輸入的文字或計算機自己產生的資訊,透過自然語言表達出來。在這個過程中,聲碼器模型十分關鍵,它可以透過計算分析來輸出相應的語音波形,所以不同聲碼器模型的選用對語音合成效果也有著不同的影響。
常見的語音合成聲碼器模型,如WaveNet,是相對比較成熟的技術,其生成的語音質量接近自然人聲。不過,在實際運用中,傳統WaveNet模型也存在著諸多不足。一是WaveNet模型結構十分複雜,對計算力要求很高;二是WaveNet模型語音合成時間較長,在實際互動場景中難以滿足使用者對實時性的要求;三是隨著智慧語音應用場景的普及,智慧語音合成平臺需要對更多裝置提供支援,工作負載加大,聲碼器模型的語音合成工作效能有待提升;四是對於企業而言,擴容帶來的成本增加。
基於此,騰訊與英特爾合作,採用全新第三代英特爾至強可擴充套件處理器作為核心算力引擎,共同構建了定製化pWaveNet聲碼器模型解決方案及定製化WaveRNN聲碼器模型解決方案,以此實現雲小微平臺能力最大化。
Parallel WaveNet模型架構圖
定製化pWaveNet聲碼器解決方案,在WaveNet模型的基礎上引入“機率密度蒸餾”技術,利用一個已經訓練好的WaveNet模型來指導實施生產的網路進行預測,這樣不僅可以擺脫依賴於先前已生成點作為輸入條件的順序生成模式,還能夠一次性生成整個序列上的輸出取樣點,大幅減少語音合成時間。
不僅如此,騰訊還在定製化pWaveNet模型中將網路一維卷積運算轉換為幾個通用矩陣相乘的操作,以此減少模型計算量。同時,引入Open-MP並行機制,充分發揮定製化pWaveNet模型中平行計算的優勢,在不影響語音質量的前提下,有效提高語音合成速度。
WaveRNN模型架構圖
定製化WaveRNN聲碼器解決方案,專為逐漸增加的工作負載而設計。其主體部分依舊是WaveRNN模型中具有雙softmax層的單迴圈網路的基本結構,不過卻將該網路原始輸入中的線性部分分離出來,並進行LPC預估處理,以此來大幅降低網路處理難度,有效提高整體計算速度。與此同時,定製化WaveRNN聲碼器解決方案還引入了稀疏化技術,來減少頻寬佔用,降低網路整體計算時間,並在多核環境中平衡計算力,增強模型執行的穩定性。
第三代英特爾®至強®可擴充套件處理器為定製化pWaveNet聲碼器解決方案及定製化WaveRNN聲碼器解決方案提供強大底層支撐。新一代英特爾至強可擴充套件處理器不僅具備更多的核心與執行緒,在為雲小微提供強大算力的同時,也滿足其對吞吐量的需求。
更值得一提的是,第三代英特爾®至強®可擴充套件處理器內建的BF16指令集在整個方案中起到了十分關鍵的作用,大幅提升AI能力,在兩種不同定製化的拓撲結構上將推理效能分別提高1.89倍和1.54倍。並與英特爾AVX-512指令一起,在英特爾oneAPI深度神經網路庫的配合下,加速硬體效率。再配合新一代處理器配備的更大快取,能夠有效提升整體處理效能。
合創共贏英特爾構建智慧生態圈
世界正在朝著更加智慧化的方向前進,英特爾開啟以資料為中心的轉型,以全面的軟硬體實力來幫助企業實現智慧化部署。同時,英特爾也在與越來越多的合作伙伴一起,藉助自身深厚的技術積累和豐富的產品組合,共同開發新的智慧應用,加速AI創新發展。
雲小微平臺就是英特爾與騰訊在AI領域聯合創新的成果,事實上,在去年的騰訊全球數字生態大會上,英特爾與騰訊達成了一系列創新合作,不僅全面升級了騰訊與英特爾聯合實驗室,還聯合開發並推出騰訊雲首款星星海四路伺服器。在軟體層面,騰訊以英特爾AI軟體棧最佳化為基礎上線了Open Vino™推理加速引擎,也成為業內第一個支援Analytics Zoo的公有云廠商。
在智慧語音領域,英特爾還將與騰訊開展更加深度的合作,結合英特爾先進的軟硬體技術,將智慧化應用拓展到更多的業務場景中去。不僅如此,雙方還會在語音識別、聲紋識別等其他AI領域共同開發,賦能各行業智慧化升級,並不斷擴大智慧生態圈。
在更大範圍內,包括人工智慧領域,英特爾憑藉新一代至強平臺強大的基礎設施能力,也將與騰訊一起在資料上雲、高效能計算、資料安全等方面為使用者提供敏捷、高效、穩定的數字服務,幫助使用者更快進行業務升級,並聯合共建廣泛的數字生態圈。