讓女性不穿衣服,認為少數族裔外觀缺乏親和力……Language models are also bias-promoters.
——
文|杜晨 編輯|Vicky Xiao
機器學習技術近幾年突飛猛進,許多強大的 AI 因此誕生。以知名科研機構 OpenAI 開發的語言生成模型 GPT 為例,它現在已經可以寫文章、幫人做報表、自動查詢資訊,給使用者帶來了很大的幫助和便利。
然而,多篇近期發表的論文指出,包括 GPT 在內的一些 AI 模型,其生成的結果包含基於性別和族裔的偏見。
而這些 AI 模型在商業領域的應用,勢必將導致對這些偏見物件的歧視得到強化。
卡耐基梅隆大學的 Ryan Steed 和喬治華盛頓大學的 Aylin Caliskan 兩位研究者近日發表了一篇論文《無監督的方式訓練的影象表示法包含類似人類的偏見》(Image Represnetations Learned With Unsupervised Pre-Training Contain Human-like Biases, arXiv:2010.15052v3)。
研究者對 OpenAI 在 GPT-2 基礎上開發的 iGPT,和 Google的 SimCLR,這兩個在去年發表的影象生成模型進行了系統性的測試,發現它們在種族、膚色和性別等指標上幾乎原樣複製了人類測試物件的偏見和刻板印象。
在其中一項測試中,研究者用機器生成的男女頭像照片作為底板,用 iGPT 來補完(生成)上半身影象。
最為誇張的事情發生了:在所有的女性生成結果當中,超過一半的生成影象穿著的是比基尼或低胸上衣;
而在男性結果影象中,大約42.5%的影象穿的是和職業有關的上衣,如襯衫、西裝、和服、醫生大衣等;光膀子或穿背心的結果只有7.5%。
這樣的結果,技術上的直接原因可能是 iGPT 所採用的自迴歸模型的機制。研究者還進一步發現,用 iGPT 和 SimCLR 對照片和職業相關名詞建立關聯時,男人更多和”商務“、”辦公室“等名詞關聯,而女人更多和”孩子“、”家庭“等關聯;白人更多和工具關聯,而黑人更多和武器關聯。
這篇論文還在 iGPT 和 SimCLR 上比較不同種族膚色外觀的人像照片的”親和度“(pleasantness),發現阿拉伯穆斯林人士的照片普遍缺乏親和力。
雖然 iGPT 和 SimCLR 這兩個模型的具體工作機制有差別,但透過這篇論文的標題,研究者指出了這些偏見現象背後的一個共同的原因:無監督學習。
這兩個模型都採用了無監督學習 (unsupervised learning),這是機器學習的一種方法,沒有給定事先標註過的訓練資料,自動對輸入的資料進行分類或分群。
然而,這篇新論文似乎證明,採用無監督學習並無法避免人類一些很常見的偏見和歧視。
另一個原因是這些模型採用的自迴歸演算法。在機器學習領域,自迴歸演算法的偏見問題已經人盡皆知,但試圖解決這一問題的努力並不多。
結果就是,機器學習演算法從原始資料集當中學到了所有的東西,當然也包括這些資料集所體現的,來自人類的各種有害偏見和歧視。
上個月,斯坦福和麥克馬斯特大學的研究者釋出的另一篇論文 Persistent Anti-Muslim Bias in Large Language Models,確認了 GPT-3 等大規模語言生成模型對穆斯林等常見刻板印象的受害者,確實存在嚴重的歧視問題。
具體來說,在用相關詞語造句時,GPT-3 多半會將穆斯林和槍擊、炸彈、謀殺和暴力關聯在一起。
在另一項測試中,研究者上傳一張穆斯林女孩的照片,讓模型自動生成一段配文。文字裡卻包含了明顯的對暴力的過度遐想和引申,其中有一句話”不知為何原因,我渾身是血。“
Language models are few-shot learners, but they are also bias-promoters.
而當這類演算法被更多應用到現實生活當中時,偏見和歧視將進一步被強化。
其中一家最知名的客戶就是微軟。去年9月,微軟 CTO Kevin Scott 宣佈將和 OpenAI 展開合作,獨家獲得 GPT-3 的授權,將其技術應用到面向微軟使用者的各項產品和 AI 解決方案當中。
微軟尚未透露具體會把 GPT-3 應用到哪些產品當中,但考慮到微軟產品十億級的使用者量,情況非常值得令人擔憂。比如微軟近幾年在 Word、PPT 等產品中推廣的自動查詢資訊、文字補完和影象設計功能,當用戶輸入某個特定詞語或新增一張照片時,如果正好落入了 GPT-3 的偏見陷阱,結果將會是非常糟糕的。
不僅 GPT,按照前述較新論文的說法,所有采用無監督學習的演算法都可能包含這樣的偏見。而現在因為無監督學習已經非常熱門,在自然語言處理、計算機視覺等領域,它已經成為了非常關鍵的底層技術。
比如翻譯,對於人際溝通十分重要,但一條錯誤的翻譯結果,一次被演算法強化的偏見事件,少則切斷了人與人之間的聯絡,更嚴重者甚至將導致不可估量的人身和財產損失。
論文作者 Steed 和 Caliskan 呼籲,機器學習研究者應該更好地甄別和記錄訓練資料集當中的內容,以便能夠在未來找到降低模型中偏見的更好方法,以及在釋出模型之前應該做更多的測試,儘量避免把被演算法強化的偏見帶入模型當中。