Raji告訴The Verge,她也對LeCun提出的研究人員應該比生產商業系統的工程師更少擔心偏見的建議感到驚訝,這反映了該行業最高層缺乏意識。“Yann LeCun領導著一個以研究許多應用研究問題而聞名的行業實驗室,他們經常尋求產品化,”Raji說。“我真的無法理解,處於該位置的人如何不承認研究在制定工程部署規範方面的作用。” The Verge聯絡了LeCun徵求意見,但暫未收到回覆。
The Verge認為,許多商業化的人工智慧系統都是直接從研究資料和演算法中建立起來的,沒有對種族或性別差異進行任何調整。如果不能在研究階段就解決偏見問題,只會讓現有的問題長期存在。那麼,從這個意義上說,奧巴馬影象的價值並不在於它暴露了單一演算法的單一缺陷,而是它在直觀的層面上傳達了人工智慧偏見的普遍性。然而,它所隱藏的是,偏見的問題遠比任何資料集或演算法更深。這是一個普遍存在的問題,需要的不僅僅是技術上的修復。
近日一張令人震驚的圖片說明了人工智慧研究的“根深蒂固的”偏見。將美國曆史上第一位黑人總統-奧巴馬的低解析度照片輸入一個旨在生成去畫素化人臉的演算法後,輸出的是一張白人照片。
此外,用同樣的演算法從低解析度的輸入中生成女演員劉玉玲(Lucy Liu)或國會議員Alexandria Ocasio-Cortez的高解析度影象,所得到的臉看起來明顯是白人。正如一條引用奧巴馬例子的熱門推文所說。“這張圖片充分說明了人工智慧中偏見的危險性。”
但是,是什麼原因導致了這些輸出,它們究竟告訴了我們關於AI偏見的什麼?
生成這些影象的程式是一種叫做PULSE的演算法,它使用一種被稱為upscaling的技術來處理視覺資料。縮放就像你在電視和電影中看到的 "放大和增強 "的典故,但是,與好萊塢不同的是,真正的軟體不能憑空生成新的資料。為了將低解析度的影象變成高解析度的影象,軟體必須使用機器學習來填補空白。
在PULSE的例子中,做這項工作的演算法是StyleGAN,它是由NVIDIA的研究人員建立的。雖然你以前可能沒有聽說過StyleGAN,但你可能對它的工作很熟悉。它是負責製作那些令人毛骨悚然的逼真人臉的演算法,你可以在ThisPersonDoesNotExist.com等網站上看到這些逼真的人臉,這些人臉經常被用來生成虛假的社交媒體資料。
PULSE所做的是使用StyleGAN來“想象 ”畫素化輸入的高解析度版本。它不是透過“增強”原始的低解析度影象,而是透過生成一個全新的高解析度面孔,當畫素化後,看起來與使用者輸入的面孔相同。
這意味著每張去畫素化的影象都可以以各種方式進行放大,就像一套食材可以做出不同的菜餚一樣。並不是像 "放大和增強 "的套路那樣,演算法是在影象中 “發現 ”新的細節,而是在發明新的面孔,還原輸入資料。這種工作在理論上已經有幾年的時間了,但是,就像人工智慧世界經常發生的那樣,當本週末在網上分享了一個易於執行的程式碼版本時,它引起了更多人的關注。這時,種族差異開始躍然紙上。
PULSE的創造者說,這個趨勢很明顯:當使用該演算法來縮放畫素化的影象時,該演算法更多的是生成具有白人特徵的面孔。
“看起來,PULSE產生白人面孔的頻率確實比有色人種的面孔高得多,”該演算法的創造者在Github上寫道。“這種偏見可能是繼承自StyleGAN被訓練的資料集[......],儘管可能還有其他我們不知道的因素。”換句話說,由於StyleGAN是在資料上訓練的,當它試圖得出一個看起來像畫素化輸入影象的人臉時,它預設為白人特徵。
這個問題在機器學習中極為常見,這也是面部識別演算法在非白人和女性面部上表現較差的原因之一。用於訓練人工智慧的資料通常偏向於單一的人口統計學,即白人男性,當程式看到不屬於該人口統計學的資料時,它的表現就會很差。不巧的是,在AI研究中占主導地位的是白人男性。
但奧巴馬的例子究竟揭示了什麼偏見,以及它所代表的問題可能如何解決,這些都是複雜的問題。事實上,它們是如此複雜,以至於這張單一的圖片在人工智慧學者、工程師和研究人員之間引發了激烈的分歧。
在技術層面上,一些專家並不確定這甚至是一個數據集偏差的例子。AI藝術家Mario Klingemann提出,PULSE選擇演算法本身,而不是資料,才是罪魁禍首。Klingemann指出,他能夠使用StyleGAN從相同畫素的奧巴馬影象中生成更多的非白人照片輸出,如下圖所示。
這些面孔是使用 "相同的概念和相同的StyleGAN模型 "生成的,但與Pulse的搜尋方法不同,Klingemann說,我們不能真正從幾個樣本來判斷一個演算法。“可能有數百萬個可能的面孔,都會還原成相同的畫素模式,而且所有的面孔都是同樣的"正確",”他告訴The Verge。
這也是為什麼這樣的工具不太可能用於監控目的的原因。這些過程所建立的面孔都是虛構的。但不管是什麼原因,演算法的輸出似乎都有偏向性--這是研究人員在該工具廣泛使用之前沒有注意到的。這說明了一種不同的、更普遍的偏見:一種在社會層面運作的偏見。
AI責任制研究者Deborah Raji告訴The Verge,這種偏見在AI世界裡太典型了。“鑑於有色人種的基本存在,不對這種情況進行測試的疏忽是令人震驚的,很可能反映了我們在誰能建立這種系統方面繼續看到缺乏多樣性,”Raji說。“有色人種並不是離群索居。我們不是"邊緣案例",作者可以隨便忘記。”
一些研究人員似乎只熱衷於解決資料方面的偏見問題,這正是引發奧巴馬形象的更大爭論的原因。Facebook首席人工智慧科學家Yann LeCun在推特上對該圖片進行了迴應,稱 “當資料出現偏差時,ML系統就會出現偏差”,並補充說,這種偏差是一個“在部署的產品中比在學術論文中 嚴重得多的問題。”因此,他成為了這些對話的熱點。
許多研究人員,其中包括Raji,對LeCun的框架提出了異議,指出人工智慧中的偏見受到更廣泛的社會不公正和偏見的影響,僅僅使用 "正確 "的資料並不能處理更大的不公正。還有人指出,即使從純技術修復的角度來看,“公平”的資料集往往也不是什麼好東西。例如,一個準確反映英華人口結構的人臉資料集將以白人為主,因為英國以白人為主。在這個資料上訓練的演算法,在白人面孔上的表現會比非白人面孔更好。換句話說,“公平”的資料集仍然可以建立有偏見的系統。在後來Twitter上的一個帖子中,LeCun承認AI偏見有多種原因。
Raji告訴The Verge,她也對LeCun提出的研究人員應該比生產商業系統的工程師更少擔心偏見的建議感到驚訝,這反映了該行業最高層缺乏意識。“Yann LeCun領導著一個以研究許多應用研究問題而聞名的行業實驗室,他們經常尋求產品化,”Raji說。“我真的無法理解,處於該位置的人如何不承認研究在制定工程部署規範方面的作用。” The Verge聯絡了LeCun徵求意見,但暫未收到回覆。
The Verge認為,許多商業化的人工智慧系統都是直接從研究資料和演算法中建立起來的,沒有對種族或性別差異進行任何調整。如果不能在研究階段就解決偏見問題,只會讓現有的問題長期存在。那麼,從這個意義上說,奧巴馬影象的價值並不在於它暴露了單一演算法的單一缺陷,而是它在直觀的層面上傳達了人工智慧偏見的普遍性。然而,它所隱藏的是,偏見的問題遠比任何資料集或演算法更深。這是一個普遍存在的問題,需要的不僅僅是技術上的修復。
正如一位研究人員Vidushi Marda在Twitter上對演算法產生的白人面孔影象做出的迴應。“如果需要明確指出的話, 這不是呼籲資料集的多樣性, 或是提高效能的準確性。這是呼籲機構和個人從根本上重新考慮設計、開發、部署這項技術。”