-
1 # 秋山臨楓
-
2 # 北航秦曾昌
生成對抗網路的基本原理
生成對抗網路,主要是一個生成模型,引入了對抗機制的思想。
具體以自然語言處理中的文字生成為例,以往的文字生成,常用RNN模型,生成過程逐字生成,loss函式常用最大似然交叉熵函式,這種生成方式雖然已經能取得不錯的生成效果,但是從loss函式的角度看,網路的最佳化方向只能考慮“字或詞”級別,近幾年也提出了attention機制,一定程度上,能在逐字生成的時候考慮更多上下文的資訊,但是由於loss 函式和模型結構的侷限,基於RNN模型的生成效果也是達到提升的上限了,再變換花樣基礎還是RNN。想要達到更大突破,還是需要科研人員跳出RNN模型,尋找一下其他的方式,更加適用於文字問題。
而GAN模型,就算是近幾年提出來的一個令人耳目一新的新想法,不是隻在生成器這一面搞花樣了,而是加入了判別器,GAN模型是一種思想,不沒有具體指代什麼模型結構,還是以自然語言處理為例,目前將GAN思想引進文字生成,也是在初級嘗試階段,但也算是一種新的角度。
最早提出的GAN模型,生成器是負責生成資料,判別器是負責判別喂入的資料是生成器生成的還是真實的資料,訓練過程是雙方互相對抗,共同升級的過程,首先先可以用真實資料預訓練得到一個第一版生成器,在根據生成器生成出來的一部分資料加上一部分真實資料,得到一個第一版判別器,此時的生成器和判別器都比較粗糙,接下來就要進入對抗訓練的過程,最終目的就是達到一個生成器生成的資料及其接近真實資料,判別起無法分辨,以至於無論生成的是真實資料還是生成器生成的資料判別器差不多都給予0.5分,沒有太大的偏重了,此時表示模型訓練基本達到平衡。
實際應用應用方面有很多有意思的角度,比如影象生成,風格轉移。要說有什麼實際應用,這個還有待開發,但是很多事情其實有趣就夠了。
-
3 # 差評
先說說概念——
GAN,Generative Adversarial Network,生成對抗網路,一種新型的機器學習演算法,最近特別火熱,輕鬆讓電腦自動生成圖片。
GAN 和以前的 AI 演算法有啥不一樣?舉個栗子吧,在以前,人們想要培養一名能夠模仿梵高的風格畫師,於是就派小明去學習,小明每天磨鍊自己的畫技,人們設計了一個標準,專門用來鑑定小明的學習成果,如果合格了,小明就出師了。這個普通 AI 演算法。
不過如果鑑定標準設計的不合理,那小明的畫技水平很快就會露餡。
現在呢,系統升級了,想要培養一名畫師,要同時派兩個人去學習,小明負責學習畫畫,小紅則負責判斷小明畫的風格和梵高的風格之間的區別。在小明進步的同時,小紅的鑑別能力也在提高,小紅把哪裡有問題告訴小明,小明繼續改進。
最後小紅無論怎麼提高,也分不出來哪個是小明的畫,哪個是梵高的畫,小明就出師了。
這套培養方法叫就叫 GAN,生成對抗網路,就是要小明和小紅彼此在 PK 中成長,這樣根本不用費勁心思去專門設計鑑定標準,效果賊拉好~
2014 年 Ian Goodfellow 提出這個理論之後,學術圈馬上就炸鍋了。。
人們以前想要訓練合成一個狗的圖片,非常難,人們要告訴系統非常多的條件,標記狗的各種特點。有了這個技術,不僅原始的樣本需要的少,不需要人工標記,而且訓練的速度之快,遠超別的演算法。
以前機器學習的速度是騎腳踏車,現在用了 GAN 就相當於坐了高鐵。
它有哪些實際應用?所有人都被這個演算法迷住了,到現在,已經有很多非常出名的專案都用到了這個技術。。
譬如。。今年年初的時候給大家介紹的神級換臉術,deepfakes,一個能把明星的臉合成到日本小短片的技術,裡面最核心的換臉演算法就是 GAN。
英偉達用 GAN 技術合成的明星臉,也是毫無破綻~
這些臉都是被創造出來的
谷歌更是把 GAN 技術推向極致,他們家的 BigGAN 生成的圖片幾乎可以以假亂真。。
半個月前,拍賣的首個 GAN 創作的油畫 《 Edmond de Belamy 》在佳士得拍出了43.25 萬美元。。
還有人打算把 GAN 移植到遊戲中,這樣每個人玩的遊戲場景道具情節都可以隨機形成,獨一無二,想想都激動。。
其實啊,GAN 的理論早已在我們的實際生活中運用了很多年了。
美味的食物料理,不就是努力進步的廚子與越來越挑剔的食客 “ GAN ” 的結果。
和諧的交通,也是不想掏錢交罰款的司機與越來越嚴格的交通法規共同 “ GAN ” 出來的。
你看,最近五星級賓館杯子衛生問題,就是缺少 GAN 的思想,沒有一個與衛生阿姨共同進步的監督小紅,果然就在打掃過程中產生了鬆懈,一旦換一種鑑定標準( 用攝像頭拍攝 ),就漏了餡。。
所以說,GAN 這種演算法真的是好的嘞,不光是在學術界,在生活中也應該經常運用。。
解釋就到這裡,
-
4 # 人民郵電出版社
愛因斯坦“復活”!——GAN告別大樣本,一張照片也能製作逼真的影片
你也許見過愛因斯坦這張嚴肅正經的照片:
但你一定沒有見過樣侃侃而談的愛因斯坦:
你也一定見過微笑著的蒙娜麗莎:
但你一定沒有見過這樣或俏皮或羞澀的蒙娜麗莎:
GAN可以說是人工智慧時代的黑科技,什麼“油畫變照片”、“黃馬變斑馬”、“冬天變夏天”、“文字生成影象”、“製造假人臉”……都是GAN的傑作。現在,GAN又能讓愛因斯坦“復活”,讓蒙娜麗莎和我們“聊天”。
將靜態的照片變成影片已經不是什麼新鮮事了。不過,以往的工作為了獲得看上去非常逼真和自然的結果,一般都需要一個人的大量照片上來做訓練。樣本影象的匱乏有時會變成GAN應用的掣肘,比方說我們想要讓愛因斯坦“復活”,但是那個年代的影像資料實在是太少了,我們沒有足夠的樣本,這個工作就很難進行。
不過,最近的一項研究已經克服了樣本資料少這個難題,向GAN網路引入了meta-learning元學習模型,然後就能根據僅僅幾幅甚至是一幅影象來建立人臉動畫。
要“復活”愛因斯坦,我們只需要準備幾張(甚至一張)愛因斯坦的照片,再準備一段影片。從影片中檢測出人臉的關鍵點,抽象出人臉的動作模型,然後,把準備好的愛因斯坦的照片“貼”到這段動作上。(原理見動圖)
這項技術在一個大的影片資料集上執行長時間的元學習,然後能夠將人在談話時的動作模型作為大容量的生成器(Generator)和判別器(Discriminator)的對抗性訓練問題,進行一次又一次的幀學習。該系統能夠以個性化的方式初始化生成器和判別器的引數,儘管需要對上千萬的引數調優,但只需非常少的訓練影象,並且訓練速度非常快。這種方法能夠學習到非常真實的人物、甚至是肖像畫的頭部聊天模型。
下面來看看人臉的標記點是怎麼被“貼”到一張新的人臉上的:
這項技術使用的框架包括嵌入器(Embedder)、生成器(Generator)、判別器(Discriminator)三個部分,嵌入式網路( embedder network)將帶有標記的頭部影象對映到嵌入向量(embedding vectors),嵌入向量包含與姿勢無關的資訊。生成器網路(generator network)透過卷積層將輸入人臉的標記對映到輸出幀中。在元學習期間,透過嵌入器傳遞來自同一影片的幀集,將得到的嵌入求均值,並使用它們來預測生成器的自適應引數。 然後,透過生成器傳遞不同幀的人臉標記,將得到的合成影象(Synthesized)與真實的影象(Groud truth)進行比較。目標函式包括感知和對抗性損失(perceptual and adversarial losses),後者透過條件投影鑑別器(conditional projection discriminator)實現。
這項技術擺脫了樣本數量的限制,讓我們可以實現很多以前難以做到的設想。利用真人照片,可以讓肖像畫做出生動的表情,藝術創作可以擺脫3D建模龐大的工作量,節省了時間成本、人力成本和硬體成本;多人線上遊戲可以隨意創作新形象,甚至你還能真實地出現在螢幕上……
技術細節可參見論文《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》,你也可以用自己的照片來創作一段好玩的影片,已經有小夥伴嘗試過,效果不錯哦~
-
5 # 東北振興
GAN的主要結構包括一個生成器G(Generator)和一個判別器D(Discriminator)。
比如球員就相當於生成器,我們需要他在球場上能有好的表現。而球員一開始都是初學者,這個時候就需要一個教練員來指導他們訓練,告訴他們訓練得怎麼樣,直到真的能夠達到上場的標準。而這個教練就相當於判別器
關注優就業,學習更多人工智慧知識。
回覆列表
簡單來說就是培養一個對手,促使自己快速進化。古話說無敵最寂寞,一個好對手會比自己更瞭解自己,更能發現問題。從而促使自己快速成長。過去的人工智慧演算法以自我學習為主,就是給你一堆書,自己去學吧,對抗演算法就是給你個對手,互相提問學習。哪種快速收斂,不言而喻。