首頁>科技>

近年來,基於生成對抗性網路(GAN)的深層神經網路已經大幅提高了端到端可訓練的照片式文字到影象的生成結果。許多方法也使用中間場景圖(intermediate scene graph)表示來改進影象合成的效果。

透過基於對話互動的方法允許使用者提供指令來逐步改進和調整生成的場景:透過指定背景中物件的相對位置,為使用者提供了更大的控制權。然而,這種方法所使用的語言是有限制的,所產生的影象僅限於3D合成視覺化或者卡通。

本月初,OpenAI官宣了一個基於Transformer的語言模型DALL-E,使用了GPT-3的120億引數版本,引起了不小的轟動。

根據文字提示,DALL-E生成的影象可以像在現實世界中拍攝的一樣。

DALL-E同時接收文字和影象作為單一資料流,包含多達1280個token,並使用最大似然估計來進行訓練,以一個接一個地生成所有的token。這個訓練過程不僅允許DALL-E可以從頭開始生成影象,而且還可以重新生成現有影象的任何矩形區域,與文字提示內容基本一致。

谷歌當然不甘落後。

最近,谷歌研究院的成員們發表了一篇新論文:以細粒度使用者注意力為基礎的文字到影象生成.

作者在論文中提出了一個新的框架:Tag-Retrieve-Compose Synthesize system (TReCS)。該方法透過改進語言對影象元素的喚醒方式和痕跡對影象元素位置的告知方式,顯著提高了影象生成過程。該系統使用了超過250億個樣本來進行訓練,並有可能處理103種語言。

這篇論文的主要貢獻在於:

1.第一次展示了在非常困難的文字到影象合成任務中的能力(與之前關於更短的文字任務相比)。

2.提出了TRECS,這是一種序列生成模型,它使用最先進的語言和視覺技術生成與語言和空間滑鼠軌跡一致的高質量影象。

3.進行了自動和人工評估,以證明TRECS生成的影象質量比現有技術有所提高。透過廣泛的研究,確定了TRECS管道的關鍵組成部分,這對於基於使用者注意力的文字到影象生成任務至關重要。

具體效果如下:

或是這樣:

TRECS的亮點在於可以同時利用文字和滑鼠痕跡。相比對於其他策略,尤其是那些需要場景圖的策略,說話時用滑鼠指著是一種更自然的方式,供使用者在影象合成過程中指示其意圖。

大致流程如下:

1.新的框架利用可控的滑鼠軌跡作為細粒度的視覺基礎來生成給定使用者敘述的高質量影象,標記器用於預測短語中每個單詞的物件標記。

2. 文字到影象的雙重編碼器用語義相關的mask掩碼來檢索影象。對於每個跟蹤序列,選擇一個mask來最大化空間重疊,克服了真實文字到物件的資訊和更好的描述。

3. 選定的mask按照跟蹤順序組合,併為背景和前景物件分別繪製畫布。前景掩碼被置於背景掩碼之上,以建立一個完整的場景分割。

4. 最後,將整個分割過程輸入到掩碼到影象的轉換模型中,合成出真實感影象。

在評價方面,無論是自動判斷還是人工評估,該系統都優於目前 SOTA 的文字影象生成技術。從日常語言中翻譯出來的雜亂的敘事文字中生成真實可控的照片,顯示了這種方法的可行性。同時TReCS 系統也解釋了冗長而複雜的文字描述來進行文字-影象生成的複雜性。實驗結果表明,該方法可以有效地生成真實感強的文字影象。

目前該方法還存在一定的限制,即:缺乏合適的評價指標來定量測量生成的影象的質量。現有的度量方法不能合理地反映基本真實影象和機器生成的真實影象之間的語義相似性。

不過,在未來的幾年裡,這個想法或許可以用來支援各種應用程式,並提供一個友好的人機介面。例如,可以幫助藝術家建立原型,從機器生成的照片中獲得洞察力,並生成逼真的影象。此外,它可以用來設計 human-in-the-loop 的評價系統,以最佳化網路。

論文原文連結:

https://arxiv.org/pdf/2011.03775.pdf

7
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 高德智慧交通地圖空間視覺化SDK設計與實現