陳根：演算法智慧的偏見和惡意，從何而來？

首頁>科技>陳根2021-02-27 10:59

人工智慧的發展讓人們逐也漸意識到演算法所依賴的大資料並非中立。它們從真實社會中抽取，必然帶有社會固有的不平等、排斥性和歧視的痕跡。

早在20世紀80年代，倫敦聖喬治醫學院用計算機瀏覽招生簡歷，初步篩選申請人。然而在執行四年後卻發現這一程式會忽略申請人的學術成績而直接拒絕女性申請人以及沒有歐洲名字的申請人。這是演算法中出現性別、種族偏見的最早案例。

今天，類似的案例仍不斷出現。用於訓練影象分類 AI 模型的知名資料集 ImageNet，就被許多研究人員指出了問題。

為了解決上述問題，卡耐基梅隆大學和喬治華盛頓大學的兩名研究人員基於 ImageNet 2012資料庫，對 iGPT 和 SimCLRv2 兩個知名的無監督計算機視覺模型進行了分析和測試，尋找它們是否存在內在偏見並對其進行量化。

最終得出的答案是肯定的，而且這些偏見與人類社會廣泛存在的偏見十分相似，比如男性與事業相關，女性與家庭掛鉤。甚至在一項測試中，對女性圖片有 52.5% 的補全圖片由比基尼或低胸上衣構成。

由於 ImageNet 資料集中的圖片都來自於網際網路上，在收集過程中，少數群體天然存在代表性不足的問題。比如，“婚禮” 是一個令人愉悅的場景，但相較於黑人，白人在婚禮圖片中出現的頻率更高，模型就會自動傾向於將其視為高親和度，儘管無監督學習的預訓練過程沒有給婚禮打上任何與白人相關的標籤。

此外，模型所採用的自迴歸演算法（Autoregression）本身在實踐中，也可能會難以避免地引入刻板印象。可以說，演算法對每一個物件相關行動代價與報償進行精準評估的結果，將使某些物件因此失去獲得新資源的機會，這似乎可以減少決策者自身的風險，但卻可能意味著對被評估物件的不公。

想要打造一個和諧的大資料時代，最大限度地減少偏見和歧視是不可迴避的問題，用技術的中立包裝社會的不公，是機器時代最大的惡意。

熱門排行