基於參考影象的人臉組成編輯#人工智慧#計算機視覺

首頁>科技>AITIME2021-01-28 18:10

基於參考影象的人臉組成編輯#人工智慧#計算機視覺

近年來，人臉肖像編輯取得了較大的進步。但是，以前的方法要麼對預定義的人臉屬性進行操作，缺乏控制高階語義人臉組成形狀的靈活性；要麼利用手動編輯的中間表示實現具有明顯拓撲形變的編輯，這種方式費時費力並且要求繪畫技能。

基於當前方法的侷限性，我們提出了一種基於參考影象的人臉組成編輯方法（r- FACE），不需要預定義的屬性標籤和手動編輯的中間表示，直接從參考影象中學習目標人臉組成形狀。為了訓練所提出的模型，我們採用上下文損失約束生成影象和參考影象之間目標人臉組成形狀的相似性，同時採用風格損失和感知損失保持原始影象和生成影象之間膚色等風格特徵的相似性。實驗結果表明，r-FACE實現了形變可控、多樣化的生成結果。

鄧琪瑤，中國科學院自動化研究所博士生，主要研究興趣是深度生成模型和人臉影象編輯。目前以第一作者在IJCAI、IEEE TIFS上發表多篇論文。

一、研究背景

人臉組成編輯是人臉肖像編輯方法的一種，人臉肖像編輯是指基於一副給定的人臉影象，對人臉的屬性組成或者語義進行編輯，並且生成的影象看起來真實自然。鑑於人臉肖像編輯方法在影視製作、圖片處理和互動式娛樂等方面的應用前景，該任務一直是計算機視覺方向的研究熱點。

近年來隨著生成模型，尤其是生成對抗網路的發展，人臉肖像編輯方法取得了巨大的進步。目前主流的人臉肖像編輯方法主要聚焦於兩類：基於標籤條件的方法和基於中間表示的方法。

⑴基於標籤條件的方法，透過改變二值屬性標籤，對預定義的人臉屬性進行操縱。但是由於該方法以二值屬性標籤為條件，而二值屬性標籤對屬性的表示能力有限，因此這類方法只適用於編輯外觀紋理變化的一些顯著屬性。

比如這裡的髮色膚色年老化和去除鬍子等，難以實現抽象形狀變化的形狀的屬性編輯。比如說將鼻子變成鷹鉤鼻，將眼睛變成丹鳳眼等，缺乏控制高階語義人臉組成，眼睛、鼻子、嘴形狀的靈活性。

⑵為了實現對形狀的可控性，最近基於中間表示的方法湧現出來，他們提出透過手動編輯中間表示，比如人臉關鍵點，語義分割圖或者輪廓草圖等，實現具有明顯拓撲形變的人臉組成邊界。

然而在實際應用中，這種直接將如此精確的中間表示作為形狀指導的方法，對使用者而言並不友好，這種方法費時費力，並且要求使用者具備一定的繪畫技能。

基於這兩種方法存在的侷限性，我們能否直接從參考影象中去學習人臉組成的形狀資訊呢？這樣既可以控制人臉組成的形狀，又不依賴精確的中間表示。

如圖所示理想的基於參考影象的人臉組成編輯，可以將參考影象的人臉組成轉移到原始影象，給定不同的參考影象，可以實現多樣化的結果。

為了實現這個目標，我們發現需要解決三個問題：

我們沒有成對樣本，沒有ground truth，因為這個世界上不存在某一個人同時具有兩種不同形狀的五官的情況，因此我們就沒有辦法獲取ground truth。給定了參考影象，我們如何明確參考影象中應該轉移，應該學習的區域呢？如何衡量或者約束生成人臉和參考人臉組成形狀的相似性呢？

二、方法設計

帶著這三個問題我們去設計模型框架，首先關於第一個問題，沒有成對樣本，沒有ground truth。既然沒有成對樣本，我們考慮以人臉補全模型作為我們的基本框架，直接將需要改變的區域去除，透過參考影象補全缺失區域實現這一個目標。因此我們的框架由一個影象補全模型和一個參考影象編碼器組成。以缺失目標人臉組成的影象作為輸入，從參考影象中學習相應的人臉組成形狀資訊來補全缺失區域，實現對人臉組成的語義形狀編輯。

關於第二個問題，如何確定參考影象中的目標人臉組成區域？我們提出了一個例項指導注意力模組，來融合原始影象的注意力特徵和從參考影象中提取的目標人臉組成特徵，進一步增強了模型的生成效果。從原始特徵中我們獲取缺失區域的attention map，原始特徵與attention map相乘，得到原始影象的自注意力特徵，參考影象特徵與attention map相乘，獲得參考影象中相應的目標人臉組成特徵。將兩者融合後的特徵作為補全區域的特徵送入網路，使模型學習到參考影象的目標人臉組成資訊，同時忽略參考影象中其他的無關資訊。

最後一個問題，如何約束生成影象和參考影象之間目標人臉組成形狀的相似性。在最終生成的影象中，我們期望組成形狀資訊要與參考影象一致，而膚色的紋理資訊要與原始影象一致，同時生成的影象還需要真實自然。為此，我們用上下文損失來約束生成影象和參考影象在補全區域的形狀相似性。採用風格損失和感知損失約束生成影象和原始影象在整體外觀上的相似性。基於人臉補全的框架，例項指導注意力模組以及損失目標，我們就實現了基於參考影象的人臉組成編輯。

三、實驗結果

我們在CelebA-HQ資料集上進行驗證。為了展示提出方法的效能，我們將生成結果與幾種基準方法進行了比較。除了人臉屬性編輯方法，AttGAN和ELEGANT，我們還將複製-貼上作為一種簡單的對比方法，將Adobe photoshop影象編輯作為一種互動式的對比方法。如圖所示，儘管Adobe photoshop人臉組成編輯結果的邊緣要比複製貼上的結果要平滑很多，但是仍然存在明顯的偽影和顏色失真問題，並且這種互動式方法需要細粒度的手工操作來改善結果的質量。

相反，AttGAN可以以端到端的方式來生成逼真的合成影象，但是自定義的二值屬性標籤侷限於生成單一結果，因此生成影象的多樣性受到了限制。從生成結果來看，AttGAN在編輯眼睛、鼻子、嘴等具有明顯形變資訊的屬性時，只能產生細微的變化，難以達到理想的編輯效果。與之相比，基於參考影象的人臉屬性編輯方法，ELEGANT可以學習到明顯的語義屬性，例如張開眼睛或者閉上嘴，但不能學習抽象的形狀資訊。比如說在編輯鼻子時生成結果沒有明顯的變化。此外ELEGANT在其他屬性無關的區域會產生較大的形變和偽影問題，尤其是多個人臉組成編輯的情況。

與這些方法相比，我們的方法不僅準確學習到了抽象的人臉組成形狀，而且較好的保證了生成影象的真實性和自然度。

我們可以實現多模態的編輯結果。基於參考影象的人臉組成編輯提高了生成人臉的多樣性和可控性，生成人臉組成的風格可以由任意參考影象指定。如圖所示，目標人員組成，例如眼睛、嘴巴可以轉換為相應參考影象的風格。如最後一行對人臉嘴部進行編輯時，在整體形狀（例如嘴角）以及區域性細節（例如部分覆蓋的牙齒），兩個方面都可以準確的學習參考影象中的相應風格，同時他們可以自然地融入原始影象中，沒有觀察到明顯的顏色失真和偽影問題，這也證明了所提方法的有效性。

我們可以實現混合編輯的結果，將來自多個參考影象的不同人臉組成融合到原始人臉中。如圖所示，我們可以觀察到只有感興趣的目標人臉組成被變換為與相應參考組成相同的風格，並自然地融合到背景中，而影象的其餘部分保持不變，這表明我們的框架可以在保持原始影象的視覺真實性的同時，合成高多樣性和強可控性的人臉影象。

在定量評估中，與其他人臉肖像編輯方法一樣，把FID和MS-SSIM作為度量指標。FID用來衡量生成分佈和原始分佈兩個分佈之間的相似性，值越低越好。而MS-SSIM則從光照、對比度以及結構三個維度衡量，兩個影象之間的相似性，值越高越好。我們與三種方法進行了比較，因為我們的模型以人臉補全作為基本框架，與經典的人臉補全方法，GLCIC方法進行了比較。除此之外，還與基於標籤條件的人臉屬性編輯方法，AttGAN以及基於參考影象的人臉屬性編輯方法，ELEGANT進行了比較。

如表格所示，我們方法的FID度量指標要比其他方法要好。但同時也觀察到我們方法的MS-SSIM度量指標低於AttGAN和GLCIC方法。分析相關原因，首先MS-SSIM對亮度對比度和結構敏感，但是對於GLCIC方法來說，它只需要補全缺失區域，對結構或者說人臉組成形狀沒有任何約束。對於AttGAN來說，它在編輯人臉組成形狀變化的屬性時，很難觀察到明顯的變化。因此這兩種方法在亮度、對比度和結構上的變化極其有限，MS-SSIM的值自然也就更高。相比之下，我們的方法在原始和參考影象的人臉組成上施加了幾何相似性約束，這會極大的改變形狀或者結構，甚至影響人的身份特徵，相應的在這個度量指標上的值也就更低。

在消融實驗中，我們主要分析了上下文損失，風格損失以及感知損失對結果的影響。從定量結果來看，每個損失都對生成影象的質量做出了貢獻。從視覺結果來看，我們發現去除上下文損失後，生成影象無法學習到參考影象的相應人員組成形狀，這表明上下文損失在形狀約束中起了決定性作用。而在去除風格損失和去除感知損失的結果中，出現了顏色失真和明顯的偽影問題。比如圖中黃框中牙齒區域的黑色陰影，以及鼻子區域膚色不一致現象，這些表明風格損失和感知損失在膚色等外觀紋理的一致性上起了一定的作用。綜上，三種損失都對最終影象的生成有所貢獻。

四、總結

總的來說，該方法打破了已有方法對人臉組成形狀變化以及依賴中間表示的侷限性，也為人臉肖像編輯拓寬了新的應用前景。比如整容外科手術的視覺化，一鍵拼湊人臉等。

論文連結：

https://www.ijcai.org/Proceedings/2020/70

最新評論

∧ 整治雙十一購物亂象，國家再次出手！該跟這些套路說再見了

∨ 100年前的“黑科技”，那個時代人們的腦洞有多大？

熱門排行

劇多

基於參考影象的人臉組成編輯#人工智慧#計算機視覺