德克薩斯大學奧斯汀分校,剛剛攜手 Facebook 人工智慧研究員,開發出了一套基於機器學習技術的“單聲道音訊轉換”技術。
顯然,這項技術很適合將普通單聲道音訊,更好地運用到虛擬現實(VR)頭戴式、帶來更出色的沉浸式體驗。
人類之所以能感知到 3D 空間的立體聲,得益於雙耳的獨特結構。基於聲音傳播的時差,大腦才能夠確定物體的距離和位置。這種 3D 音訊體驗,可以透過模擬雙耳的立體聲裝置來錄製和復現。
遺憾的是,大多數音訊都是單聲道格式的(錄製時就只使用了單個麥克風)。雖然日常生活中已經“夠用”,但它並不適合 VR 等追求沉浸式體驗的應用場景。
【2.5D Visual Sound】
有鑑於此,將單聲道音訊轉換成雙聲道,就變得很有必要。好訊息是,研究人員 Ruohan Gao 和 Kristen Grauman,已經找到了一種相當接近的方法。
該方法依賴於影片,在深度學習技術的加持下,透過分析畫面中各個物體的空間位置,即可轉換出更加立體的 2.5D 音訊。
當然,這項方法也存在著一定的限制,尤其是存在一些讓 AI 無法理解的物件的時候。感興趣的朋友,可以觀看上面這段演示影片。
德克薩斯大學奧斯汀分校,剛剛攜手 Facebook 人工智慧研究員,開發出了一套基於機器學習技術的“單聲道音訊轉換”技術。
其能夠分析影片中場景,轉換出更加令人感到震撼的“2.5D 視覺立體聲”。顯然,這項技術很適合將普通單聲道音訊,更好地運用到虛擬現實(VR)頭戴式、帶來更出色的沉浸式體驗。
人類之所以能感知到 3D 空間的立體聲,得益於雙耳的獨特結構。基於聲音傳播的時差,大腦才能夠確定物體的距離和位置。這種 3D 音訊體驗,可以透過模擬雙耳的立體聲裝置來錄製和復現。
遺憾的是,大多數音訊都是單聲道格式的(錄製時就只使用了單個麥克風)。雖然日常生活中已經“夠用”,但它並不適合 VR 等追求沉浸式體驗的應用場景。
【2.5D Visual Sound】
有鑑於此,將單聲道音訊轉換成雙聲道,就變得很有必要。好訊息是,研究人員 Ruohan Gao 和 Kristen Grauman,已經找到了一種相當接近的方法。
該方法依賴於影片,在深度學習技術的加持下,透過分析畫面中各個物體的空間位置,即可轉換出更加立體的 2.5D 音訊。
當然,這項方法也存在著一定的限制,尤其是存在一些讓 AI 無法理解的物件的時候。感興趣的朋友,可以觀看上面這段演示影片。