首頁>科技>

技術盛行的時代裡,人工智慧讓社會生活的一切都顯得表觀和直接,卻讓偽造走向深度和長遠。

作為一種基於人工智慧的人體影象合成技術,深度偽造的起初只是程式設計師用於自制搞笑的“換頭”影片的簡單想法。但是,兩個深度學習的演算法相互疊加,最終創造了一個複雜的系統。

人工智慧的進步令這個複雜的系統用途也得以擴充。從特定使用者實時匹配面部表情,並無縫切換生成換臉影片,到其可以模仿的物件不再被限制。不論是明星政客,還是任何普通人,都可以在深度偽造技術下達到“以假亂真”的程度。

在這些應用帶來發展機遇的同時,其背後的安全隱患也開始被放大。隨著深度偽造技術發展的愈發複雜,其製作卻越來越簡單。可以說,深度造假正帶來一系列具有挑戰性的政策、技術和法律問題。

人工智慧重塑了人的認知,而人作為人工智慧的開發者也將固有的偏見傳遞給了技術。更重要的是,人們對這一切似乎並無察覺。在“娛樂”的外衣下,即便察覺,也無計可施。

從深度合成到深度偽造

一開始,“深度偽造”並不叫“深度偽造”,而是作為一種人工智慧合成內容技術而存在。而深度合成技術是人工智慧發展到一定階段的產物,源於人工智慧系統生成對抗網路(GAN)的進步

GAN由生成器和識別器兩個相互競爭的系統組成。建立GAN的第一步是識別所需的輸出,併為生成器建立一個培訓資料集。一旦生成器開始建立可接受的輸出內容,就可以將影片剪輯提供給識別器進行鑑別。如果鑑別出影片是假的,就會告訴生成器在建立下一個影片時需要修正的地方。

根據每次的“對抗”結果,生成器會調整其製作時使用到的引數,直到鑑別器無法辨別生成作品和真跡,以此將現有影象和影片組合併疊加到源影象上,終於生成合成影片。

典型的“深度合成”主要包括人臉替換、人臉再現、人臉合成以及語音合成四種形式。

人臉替換也被稱為換臉,是指將某一個人的臉部影象(源人物)“縫合”到另外一個人的臉上(目標人物),從而覆蓋目標人物的面部。

人臉再現則利用深度合成技術改變人的面部特徵,包括目標物件的嘴部、眉毛、眼睛和頭部的傾斜,從而操縱目標物件的臉部表情。人臉再現不同於人臉替換,前者側重於改變某個人的臉部表情,從而讓其看起來在說他們從未說過的話。

人臉合成可以建立全新的人臉影象,而這些隨機生成的人臉影象很多都可以媲美真實的人臉影象,甚至代替一些真實肖像的使用,比如廣告宣傳、使用者頭像等。

語音合成涉及建立特定的聲音模型,不僅可以將文字轉化成聲音,而且可以轉化為接近真人語調和節奏的聲音。加拿大的語音合成系統 RealTalk,就與以往基於語音輸入學習人聲的系統不同,它可以僅基於文字輸入生成完美逼近真人的聲音。

深度合成技術的走紅,卻是一場意外。2017年,美國新聞網站 Reddit的一個名為“deepfakes”的使用者上傳了經過數字化篡改的色情影片,即這些影片中的成人演員的臉被替換成了電影明星的臉。此後,Reddit網站成為了分享虛假色情影片的一個陣地。

儘管後來 Reddit網站上的 deepfake 論壇因為充斥著大量合成的色情影片而被關閉,但deepfake背後的人工智慧技術卻引起了技術社群的廣泛興趣,開源方法和工具性的應用不斷湧現,比如,Faceswap、FakeAPP、face2face等。

而從那時起,新聞媒體就開始使用“deepfake”一詞來描述這種基於人工智慧技術的合成影片內容。於是,基於“deepfake”技術的內容和“deepfake”的語境,深度偽造由此而生。

真實的消解,信任的崩壞

人工智慧重塑人類的認知,而人類作為人工智慧的開發者也將固有的偏見傳遞給了技術。技術並非中立,它復刻且放大了人類的偏好,反映並強化了潛藏的社會風險。潘多拉的魔盒一旦開啟,將會帶來意想不到的傷害和威力。

深度偽造出現前,影片換臉技術最早應用於電影領域,需要相對較高的技術和資金。而2017年以來,該技術在“GitHub”的開源軟體湧現。其開發技術獲取成本大大降低,並且能夠被不具備專業知識的普通人利用並輕易製作。

製造影片並不需要很高的技巧,機器學習演算法與面部對映軟體相結合,偽造內容來劫持一個人的聲音、面孔和身體等身份資訊變得廉價而容易,普通大眾一鍵便可製造想要的影片。

偽造影片等的泛濫,帶來的第一個嚴重後果,就是對於資訊的真實性形成的嚴峻挑戰。自從攝影術、影片、射線掃描技術出現以來,視覺文字的客觀性就在法律、新聞以及其他社會領域被慢慢建立起來,成為真相的存在,或者說,是建構真相的最有力證據。“眼見為實”成為這一認識論權威的最通俗表達。在這個意義上,視覺客觀性產自一種特定的專業權威體制。

然而,深度造假的技術優勢和遊獵特徵,使得這一專業權威體制遭遇前所未有的挑戰。藉助這一體制生產的視覺文字,深度造假者替換了不同乃至相反的文字內容和意涵,造成了文字的自我顛覆,也就從根本上顛覆了這一客觀性或者真相的生產體制。

PS 發明後,有圖不再有真相。而深度偽造技術的出現,則讓影片也開始變得鏡花水月了起來:人們普遍認為影片可以擔當“實錘”,而現在這把實錘竟可憑空製造,對於本來就假訊息滿天飛的網際網路來說,這無疑會造成進一步的信任崩壞。

深度偽造技術被運用在政治領域,其破壞政府和政治程序的穩定帶來的傷害尤為長久和深刻。 可以說,深度造假不僅是一種技術迷思和技術景觀,而且是一個充滿變動的權力場域。事實上,深度造假之所以被政治和社會領域所關注,恰恰是由於精確換臉對這些領域中真相的認識論的進一步瓦解,以及造成的有關傳播失序的道德恐慌。

惡意的行為者偽造證據,助長了虛假指控和虛假敘述。比如,透過對候選人發表的原有言語進行微妙改變,使其品格、健康狀況和心理健康受到質疑,而大多數觀眾卻完全不知道其中的門道。

“深度偽造”技術還可用於建立全新的虛擬內容,包括有爭議的發言或仇恨言論,目的是操縱政治分歧議題,甚至是煽動暴力。

此外,深度偽造的泛濫進一步增加侵犯肖像權和隱私權的可能,沒人願意自己的臉龐出現在莫名其妙的影片當中。深度偽造技術最初就是被應用於色情行業,如今,這一應用對肖像權和隱私的侵害隨著深度偽造向著廉價造假轉化仍然在放大。

於是,藉助一些低價乃至免費的軟體,消費者無需專業知識和技術能力,即可透過終端實現調整速度、攝像頭效果、更換背景、實現換臉等操作。這在一定程度上成為了色情影片濫觴的源頭。

比如,2019年出現的一鍵生成裸照軟體DeepNude,只要輸入一張完整的女性圖片就可自動生成相應的裸照。受害者通常沒有追索權,並且,照片上傳之後難再刪除。這種輕易生成的色情影片將很大程度上損害女性的工作前途、人際關係、名譽和心理健康,造成汙名化女性、色情報復的惡果,使女性暴露在某種集體監視之中。

深度偽造軟體收集的使用者照片,以及眨眼、搖頭等動態行為資訊,都是使用者不可更改的敏感資訊,一旦被非法使用,後果不堪設想。2019 年 3 月份,《華爾街日報》報道,有犯罪分子使用深度偽造技術成功模仿了英國某能源公司在德國母公司 CEO 的聲音,詐騙了220 000 歐元(約1 730 806人民幣),其破壞性可見一斑。

關於真實的博弈

我們並不否認深度偽造技術為社會帶來的更多可能性。

短期內,深度偽造技術已經作用於影視、娛樂和社交等諸多領域,它們或是被用於升級傳統的音影片處理或後期技術,帶來更好的影音體驗,或是被用來進一步打破語言障礙,最佳化社交體驗。

中長期來看,深度偽造技術既可以基於其深度模擬的特徵,超越時空限制,加深人們與虛擬世界的互動,也可以基於其合成性,創造一些超越真實世界的“素材”,比如合成數據。

但在深度偽造帶來的危機逼近的當前,迴應深度偽造對社會真相的消解,彌補信任的崩壞,並對這項技術進行治理已經不可忽視。遺憾的是,迄今為止,人們在應對深度偽造技術方面的表現並不理想。

事實上,人們並非沒有試圖透過技術手段遏制深度造假的泛濫。2019年,斯坦福大學研究員Tom Van de Weghe聯合計算機、新聞等行業的專家,成立了深度造假研究小組,以提升公眾對這一現象的認知度,設計深度造假的識別應對方案。然而,技術發展速度往往高於破解速度。隨著鑑別器在識別假影片方面做得越來越好,生成器在建立假影片方面也做得越來越好。

理論上,只要給GAN當前掌握的所有鑑證技術,它就能透過學習進行自我進化,規避鑑證監測。攻擊會被防禦反擊,反過來又被更復雜的攻擊所抵消。可以預見,未來,深度偽造與鑑別深度偽造將會在這種“道高一尺魔高一丈”的反覆中博弈下去

此外,迄今為止,立法都滯後於深度偽造技術的發展,並存在一定的灰色地帶。深度偽造基於公開照片的生成,這令其很難真正被發現。由於所有的照片都是由人工智慧系統從零開始建立,任何的照片都可以不受限地用於任何目的,而不用擔心版權、分發權、侵權賠償和版稅的問題。因此,這也帶來了深度偽造照片或影片的版權歸屬問題。

在注意力經濟興起,高度分裂的社會背景下,與深度偽造的博弈是一個有關真實的遊戲。進入人工智慧為技術基礎的深度後真相時代,深度偽造進一步用超越人類識別力的技術,模糊了真與假的界限,並將真相開放為可加工的內容,供所有參與者使用。

在這個意義上,深度造假開啟的是普通人參與視覺表達的新階段。然而,這種表達方式還會結構性地受到平臺權力的影響,也給社會帶來了更大的挑戰。因此,察覺風險,審慎迴應,是我們做出努力的第一步。

4
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 美國專利授權排名出爐:蘋果排第8、三星排第2,華為衝進前十