回覆列表
  • 1 # cnBeta

    德克薩斯大學奧斯汀分校,剛剛攜手 Facebook 人工智慧研究員,開發出了一套基於機器學習技術的“單聲道音訊轉換”技術。

    其能夠分析影片中場景,轉換出更加令人感到震撼的“2.5D 視覺立體聲”。

    顯然,這項技術很適合將普通單聲道音訊,更好地運用到虛擬現實(VR)頭戴式、帶來更出色的沉浸式體驗。

    人類之所以能感知到 3D 空間的立體聲,得益於雙耳的獨特結構。基於聲音傳播的時差,大腦才能夠確定物體的距離和位置。這種 3D 音訊體驗,可以透過模擬雙耳的立體聲裝置來錄製和復現。

    遺憾的是,大多數音訊都是單聲道格式的(錄製時就只使用了單個麥克風)。雖然日常生活中已經“夠用”,但它並不適合 VR 等追求沉浸式體驗的應用場景。

    【2.5D Visual Sound】

    有鑑於此,將單聲道音訊轉換成雙聲道,就變得很有必要。好訊息是,研究人員 Ruohan Gao 和 Kristen Grauman,已經找到了一種相當接近的方法。

    該方法依賴於影片,在深度學習技術的加持下,透過分析畫面中各個物體的空間位置,即可轉換出更加立體的 2.5D 音訊。

    當然,這項方法也存在著一定的限制,尤其是存在一些讓 AI 無法理解的物件的時候。感興趣的朋友,可以觀看上面這段演示影片。

  • 中秋節和大豐收的關聯?
  • 紅旗汽車可以媲美大眾,豐田嗎?