聯通沃卡惠：使用機器學習恢復過度壓縮的社交媒體視頻

首頁>數碼>沃卡惠2022-08-20 11:18

新方法與先前方法的比較，就其能夠準確地重新解決社交媒體平臺自動優化期間遺棄的細節而言。

與可以基於通用訓練數據對視頻進行放大和上採樣的先前方法相反，新方法改為為壓縮視頻的每一幀導出退化特徵圖(DFM)——有效地概述幀中受損或退化最嚴重的區域是壓縮造成的。

來自新論文的消融研究：右二，“純”退化特徵圖（DFM）的基本事實；右起第三個，不使用DFM的損壞估計。左，更準確的DFM損壞地圖。

利用卷積神經網絡(CNN)和其他技術的恢復過程由DFM中的信息引導和聚焦，從而使新方法能夠超越先前方法的性能和準確性。

研究人員將高質量視頻上傳到四個流行的共享平臺，下載壓縮結果，並開發了一個能夠抽象地學習壓縮偽影和細節損失的計算機視覺管道，從而獲得了該過程的基本事實，以便它可以應用於許多平臺根據完全適當的數據將視頻恢復到接近原始質量。

來自研究人員的新UVSSM數據集的示例。

研究中使用的材料已被編譯為名為“社交媒體上共享的用戶視頻(UVSSM)”的HQ/LQ數據集，並已在百度上可供下載，以供後續尋求開發的研究項目使用恢復平臺壓縮視頻的新方法。

來自可下載UVSSM數據集的兩個等效HQ/LQ樣本之間的比較（有關源URL，請參見上面的鏈接）。由於即使是這個例子也可能會經過多輪壓縮（圖片應用、CMS、CDN等），請參考原始源數據進行更準確的對比。

該系統的代碼被稱為通過自適應退化感知(VOTES)進行的視頻恢復，也已在GitHub上發佈，儘管它的實現需要一些基於拉取的依賴項。

論文題目為《Restorationof User Videos Shared on Social Media》，來自深圳大學的三位研究員和香港理工大學電子與信息工程系的一位研究員。

無需像Gigapixel等程序（以及大多數流行的類似範圍的開源軟件包）提供的通用的、有時過度“幻覺”的細節，恢復網絡抓取視頻質量的能力可能會對計算機視覺研究部門產生影響.

對基於視頻的CV技術的研究通常依賴於從YouTube和Twitter等平臺獲得的素材，其中使用的壓縮方法和編解碼器受到嚴密保護，無法根據偽影模式或其他視覺指標輕鬆收集，並且可能會定期變化。

大多數利用網絡視頻的項目都沒有研究壓縮，並且必須考慮平臺提供的壓縮視頻的可用質量，因為它們無法訪問用戶上傳的原始高質量版本。

因此，在不引入無關計算機視覺數據集的下游影響的情況下，忠實地恢復此類視頻的更高質量和分辨率的能力，可以幫助避免CV項目目前必須為降級的視頻源進行頻繁的變通和調整。

儘管YouTube等平臺偶爾會大肆宣揚壓縮用戶視頻的方式（如VP9）的重大變化，但它們都沒有明確透露用於精簡用戶上傳的高質量文件的整個過程或確切的編解碼器和設置。

因此，在過去十年左右的時間裡，通過用戶上傳來提高輸出質量已成為一種德魯伊藝術，各種（大多數未經證實的）“變通辦法”時不時流行。

基於深度學習的視頻恢復的先前方法涉及通用特徵提取，或者作為單幀恢復的方法，或者在利用光流的多幀架構中（即在恢復當前幀時考慮相鄰和後面的幀）。

所有這些方法都必須應對“黑匣子”效應——事實上，它們無法檢查核心技術中的壓縮效果，因為無法確定核心技術是什麼，或者它們是如何為任何特定用戶配置的-上傳的視頻。

相反，VOTES尋求直接從原始和壓縮視頻中提取顯著特徵，並確定將推廣到許多平臺標準的轉換模式。

VOTES的簡化概念架構。

VOTES使用專門開發的退化感知模塊（DSM，見上圖）來提取卷積塊中的特徵。然後將多個幀傳遞到特徵提取和對齊模塊(FEAM)，然後將這些幀分流到降級調製模塊(DMM)。最後，重建模塊輸出恢復的視頻。

結果發現，一旦他們獲得了一個有效的微信視頻恢復模型，將其適配到Bilibili、Twitter和YouTube，每個平臺的每個自定義模型的單個epoch只需要90秒（在運行4個NVIDIA Tesla P40 GPU的機器上總共96GB顯存）。

為了填充UVSSM數據集，研究人員收集了264個視頻，範圍在5-30秒之間，每個視頻的幀速率為30fps，直接來自手機攝像頭或互聯網。這些視頻都是1920x1080或1280x270分辨率。

內容（見上圖）包括城市景觀、風景、人物和動物，以及各種其他主題，並可通過知識共享署名許可在公共數據集中使用，允許重複使用。

左上角，原來的總部框架，三個放大的部分；右上角，來自同一視頻的平臺降級壓縮版本的同一幀；左下角，壓縮幀的計算退化；右下角是VOTES關注的後續“工作區”。顯然，低質量圖像的大小是HQ圖像的一半，但為了便於比較，這裡已經調整了大小。

後面為了和其他平臺的轉換套路對比，研究人員將原214中未收錄的50個視頻上傳到Bilibili、YouTube、Twitter。視頻的原始分辨率為1280×270，下載的版本為640×360。

對於實驗，選擇了10個隨機視頻作為測試集，4個作為驗證集，剩餘的200個作為核心訓練集。使用K折交叉驗證進行了五次實驗，結果在這些實例中取平均值。

在視頻恢復測試中，將VOTES與時空可變形融合(STDF)進行了比較。對於分辨率增強，它針對增強型可變形卷積(EDVR)、RSDN、具有時間組注意的視頻超分辨率(VSR_TGA)和BasicVSR進行了測試。谷歌的單階段方法COMISR也包括在內，儘管它不適合其他先前作品的架構類型。

這些方法針對UVSS和REDS數據集進行了測試，VOTES獲得了最高分：

作者認為，定性結果也表明VOTES相對於先前系統的優勢：

通過競爭方法恢復的來自REDS的視頻幀。僅指示性解決方案-請參閱論文以獲得最終解決方案。

最新評論

∧ 驍龍8s Elite來襲，中端市場的新寵還是性能妥協？全面解析與期待

熱門排行