基於流的生成模型是繼 GAN 和 VAE 之後的第三種生成模型,但這只是很多人的初步印象。其實這種模型在 2014 年就被提出,比 GAN 還早,但僅在近期由於 OpenAI 提出了 Glow 模型才被人注意到。基於流的生成模型具有可逆和內在並行性的優點。
實際上,生成模型可以分為四個類別:自迴歸、GAN、VAE、flow-based(基於流)。以影象生成為例,自迴歸模型需要逐畫素地生成整張影象,每次新生成的畫素會作為生成下一個畫素的輸入。這種模型計算成本高,並行性很差,在大規模生成任務中效能有限。WaveNet 就是一種自迴歸模型,最大的缺點就是慢。其它典型的自迴歸模型還有 PixelRNN 和 PixelCNN。此外,自迴歸模型也是可逆的。相對於自迴歸模型,基於流的生成模型的優勢是其並行性。
相對於 VAE 和 GAN,基於流的生成模型的優勢是:可以用隱變數精確地建模真實資料的分佈,即精確估計對數似然,得益於其可逆性。而 VAE 儘管是隱變數模型,但只能推斷真實分佈的近似值,而隱變數分佈與真實分佈之間的 gap 是不可度量的,這也是 VAE 的生成影象模糊的原因。GAN 是一種學習正規化,並不特定於某種模型架構,並且由於其存在兩個模型互相博弈的特點,理論的近似極限也是無法確定的。基於流的生成模型卻可以在理論上保證可以完全逼近真實的資料分佈。
有這麼多的優點,以一己之力輕鬆克服 WaveNet 的缺點也不是什麼難事了。
基於流的生成模型可以大致理解為:它希望將資料表示成簡單的隱變數分佈,並可以從該分佈中完全還原真實資料的分佈。也就是說,它要學習的是一個可逆函式。利用雅可比矩陣的這個性質:一個函式的雅可比矩陣的逆矩陣,是該函式的反函式的雅可比矩陣,NICE 和 RealNVP 提出了透過順序的可逆函式變換,將簡單分佈逐步還原複雜的真實資料分佈的歸一化流過程,如下圖所示。後來在 Glow 中提出用 1x1 可逆卷積替換 NICE 和 RealNVP 中的可逆變換。
由於可以進行精確的密度估計,基於流的生成模型在很多下游任務中具備天然優勢,例如資料補全、資料插值、新資料生成等。
在 Glow 中,這種模型展示了其在影象生成和影象屬性操控上的潛力:
Glow 實現的人臉影象屬性操作。訓練過程中沒有給模型提供屬性標籤,但它學習了一個潛在空間,其中的特定方向對應於鬍鬚密度、年齡、頭髮顏色等屬性的變化。
這類模型是不是能超越 GAN 不好說,但相對於 VAE 還是有很明顯的優勢,在未來的生成模型研究領域中也是非常值得期待和關注的方向。
基於流的生成模型是繼 GAN 和 VAE 之後的第三種生成模型,但這只是很多人的初步印象。其實這種模型在 2014 年就被提出,比 GAN 還早,但僅在近期由於 OpenAI 提出了 Glow 模型才被人注意到。基於流的生成模型具有可逆和內在並行性的優點。
實際上,生成模型可以分為四個類別:自迴歸、GAN、VAE、flow-based(基於流)。以影象生成為例,自迴歸模型需要逐畫素地生成整張影象,每次新生成的畫素會作為生成下一個畫素的輸入。這種模型計算成本高,並行性很差,在大規模生成任務中效能有限。WaveNet 就是一種自迴歸模型,最大的缺點就是慢。其它典型的自迴歸模型還有 PixelRNN 和 PixelCNN。此外,自迴歸模型也是可逆的。相對於自迴歸模型,基於流的生成模型的優勢是其並行性。
相對於 VAE 和 GAN,基於流的生成模型的優勢是:可以用隱變數精確地建模真實資料的分佈,即精確估計對數似然,得益於其可逆性。而 VAE 儘管是隱變數模型,但只能推斷真實分佈的近似值,而隱變數分佈與真實分佈之間的 gap 是不可度量的,這也是 VAE 的生成影象模糊的原因。GAN 是一種學習正規化,並不特定於某種模型架構,並且由於其存在兩個模型互相博弈的特點,理論的近似極限也是無法確定的。基於流的生成模型卻可以在理論上保證可以完全逼近真實的資料分佈。
有這麼多的優點,以一己之力輕鬆克服 WaveNet 的缺點也不是什麼難事了。
基於流的生成模型可以大致理解為:它希望將資料表示成簡單的隱變數分佈,並可以從該分佈中完全還原真實資料的分佈。也就是說,它要學習的是一個可逆函式。利用雅可比矩陣的這個性質:一個函式的雅可比矩陣的逆矩陣,是該函式的反函式的雅可比矩陣,NICE 和 RealNVP 提出了透過順序的可逆函式變換,將簡單分佈逐步還原複雜的真實資料分佈的歸一化流過程,如下圖所示。後來在 Glow 中提出用 1x1 可逆卷積替換 NICE 和 RealNVP 中的可逆變換。
由於可以進行精確的密度估計,基於流的生成模型在很多下游任務中具備天然優勢,例如資料補全、資料插值、新資料生成等。
在 Glow 中,這種模型展示了其在影象生成和影象屬性操控上的潛力:
Glow 實現的人臉影象屬性操作。訓練過程中沒有給模型提供屬性標籤,但它學習了一個潛在空間,其中的特定方向對應於鬍鬚密度、年齡、頭髮顏色等屬性的變化。
這類模型是不是能超越 GAN 不好說,但相對於 VAE 還是有很明顯的優勢,在未來的生成模型研究領域中也是非常值得期待和關注的方向。