淘系音影片技術 淘系技術
“聽這聲音彷彿回到了小時候,不僅腦海裡有畫面,甚至還有溫度味道。”“隔著螢幕已經感受到火光和撲面而來的溫暖了”“沒想到在淘寶直播間也能聽到asmr”
有這樣一個特別的直播間,一位75歲的老奶奶,在淘寶直播間給燒柴火給網友聽。
來自奶奶的科普:不同的柴火能燒出不同的聲音
還真別說,直播間裡,我們可以清晰地聽到:稻田秸稈的滋滋聲、玉米秸稈的沙沙聲......
每一塊柴火發出不同的聲音,讓人感到溫暖又解壓!閉上眼,彷彿感覺自己也坐在奶奶身邊,陪著一起烤火~
伴隨電商直播的火熱發展,直播場景和直播形式也越來越多樣化,除了燒柴的奶奶,還有很多音樂直播間,不少主播也會將直播場地選在開闊喧嚷的戶外、喧鬧的商場甚至是市場......複雜的場景化無疑對音訊處理技術提出了更大的挑戰!
阿里巴巴集團CTO魯肅也曾分享了他購買古琴的經歷,買古琴不能透過常規的圖文描述來分辨古琴的好壞,賣家將程立引導到直播間,透過主播講解,在直播間聽聲音來分辨古琴好壞。買到琴後發現琴的聲音跟直播間裡聽到的完全一樣,魯肅對淘寶直播間樂器的音質大加讚賞,這種所見即所得的感覺是直播最大的優勢。
音樂直播間高保真體驗:
高畫質音質的體驗一直是我們追求的重點。口播是主播賣貨最直接有效的交流方式,但主播直播間聲音環境複雜、音訊裝置多種多樣、應用場景差異性大,從而導致一些場景的音質體驗受到挑戰。淘寶直播多樣化的直播場景和聲學裝置型別,導致我們很難用一個通用演算法解決所有聲音問題,為此我們針對一些問題進行有針對性的最佳化工作。
歷史上淘寶直播的場景以語音直播為主,後來隨著商品場景的豐富,樂器、音樂直播逐漸增多。透過調研我們知道樂器商家對音質的要求非常嚴格,稍有失真就會直接影響銷量。為了解決該問題,我們全鏈路分析影響音樂訊號的環節,找到最佳化點,對每個產生音質損傷的點進行最佳化。
上圖列出了一些影響直播音質的環節,樂器直播一般都會配置音效卡裝置,所以硬體端一般輸入音質都比較好。音訊採集模式對音質影響較大,原始採集基本無損,但是如果加了系統自帶的演算法處理,音質會大打折扣,並且不合適的採集模式會導致外接音效卡不可用。降噪、編解碼和播放器的處理都是演算法層面的影響,演算法處理不當,會導致訊號的頻率失真、頻寬等問題。最終,經過最佳化之後,樂器直播場景音質得到了極大提升,透過AB test驗證,最佳化之後樂器場景粉絲平均停留時長增加明顯。
線上最佳化前樂器直播效果:
線上最佳化後樂器直播效果:
“讓畫面更清晰,讓聲音更動聽,打造最佳的視聽體驗”,一直以來都是淘寶直播體驗最佳化的重點。在過去一年中,我們圍繞音質和畫質,建設了端側窄帶高畫質技術,使用影象增強的技術來提升低端裝置的畫質,並採用ROI感知編碼來提高重點區域的質量。在音訊方面,我們自研了基於資料驅動的智慧降噪,在主觀和客觀指標上都對齊甚至超過了競品,在消除噪聲的同時對人聲進行最大限度的保留;我們還推出高音質直播間,顯著提升樂器類直播觀看時長;透過採用自研軟體3A,解決各種手機音質不一致的問題。
我們會持續最佳化畫質和音質。透過主觀質量最佳化來進一步提升直播間畫質,透過智慧PLC技術來恢復網路丟包,透過場景檢測來識別當前的直播環境,並據此來選擇最佳的語音降噪模式和降噪強度;我們還會設計聲音美化功能,讓男主播的聲音更渾厚,女主播聲音更清澈;在聲音互動方面,我們還會支援直播連麥的變聲功能,有效保護特定人群隱私。我們還會跟達摩院同學一起,在直播間引入智慧語音TTS,ASR能力,提供語音播報,語音訊息,實時字幕能力,更好的服務於主播和使用者。