儘管技術本身是中立的,但在人工智慧(AI)的開發過程中,難免會引入一些人類的偏見。
為了減少這方面的偏差,IBM 研究院剛剛打造了一套更加多樣化的“百萬人臉資料集”。
近年來,隨著智慧手機的普及,面部識別已經在許多領域得到了廣泛的運用。
然而在一些測試中,某些看似很優秀的 AI,竟然也會敗下陣來。
(圖自:IBM Research)
鑑於不少情況與某些膚色或年齡相關,IBM 研究院希望進一步消除這方面的偏差。
顯然,這是一個多層次的問題,很大程度上歸咎於開發人員和建立者沒有深思熟慮。
此外,如果沒有包羅永珍的人臉資料集,AI 也難免在訓練過程中有失偏頗。
憑藉全新的“百萬多樣性人臉資料集”,AI 開發者將能夠充分考慮到多樣性的面部特徵(DiF)。論文解釋稱:
為使面部識別能夠按照要求執行(既公平又準確),訓練用的資料,必須提供足夠的平衡和覆蓋。
據悉,這批面孔來自一套更加龐大的 1 億影象資料集(Flickr 創作共用)。
透過執行另一套機器學習系統,並找到儘可能多的到面孔。然後將它們隔離並裁剪,再開始真正的工作。
這些集合可被其它機器學習演算法所攝取,因此需要多樣化、且準確的標記。
DiF 資料集中包含了一百萬張面孔,且每個都附有元資料,以描述眼間距和額頭等特徵。
結合上述多種措施,系統可用於匹配影象與個人的‘面部印記’,但仍需考慮演算法是否對某個種族群體是否合適。
有鑑於此,IBM 團隊整理了一套修訂版本,不僅包括了簡單的內容,還描述了各措施之間的關聯 —— 比如眼睛上方和鼻子下方區域的比例、膚色、對比度、以及著色型別。
此外,使用者的年齡也可被自動估計。人們被要求標記男性或女性的面部,並猜測其年齡。
當然,這裡肯定會存在一定的偏差,但與其它任何公開的面部識別訓練資料集相比,所有這些都可以在更廣義的尺度上去理解。
帶領這項研究的 IBM 研究員 John R. Smith 在一封電子郵件中稱:
在文化和生物學上,種族之間的界限並不明顯。我們選擇專注於能夠可靠測定的編碼方案,為多樣性分析提供一定規模的支援。
儘管技術本身是中立的,但在人工智慧(AI)的開發過程中,難免會引入一些人類的偏見。
為了減少這方面的偏差,IBM 研究院剛剛打造了一套更加多樣化的“百萬人臉資料集”。
近年來,隨著智慧手機的普及,面部識別已經在許多領域得到了廣泛的運用。
然而在一些測試中,某些看似很優秀的 AI,竟然也會敗下陣來。
(圖自:IBM Research)
鑑於不少情況與某些膚色或年齡相關,IBM 研究院希望進一步消除這方面的偏差。
顯然,這是一個多層次的問題,很大程度上歸咎於開發人員和建立者沒有深思熟慮。
此外,如果沒有包羅永珍的人臉資料集,AI 也難免在訓練過程中有失偏頗。
憑藉全新的“百萬多樣性人臉資料集”,AI 開發者將能夠充分考慮到多樣性的面部特徵(DiF)。論文解釋稱:
為使面部識別能夠按照要求執行(既公平又準確),訓練用的資料,必須提供足夠的平衡和覆蓋。
據悉,這批面孔來自一套更加龐大的 1 億影象資料集(Flickr 創作共用)。
透過執行另一套機器學習系統,並找到儘可能多的到面孔。然後將它們隔離並裁剪,再開始真正的工作。
這些集合可被其它機器學習演算法所攝取,因此需要多樣化、且準確的標記。
DiF 資料集中包含了一百萬張面孔,且每個都附有元資料,以描述眼間距和額頭等特徵。
結合上述多種措施,系統可用於匹配影象與個人的‘面部印記’,但仍需考慮演算法是否對某個種族群體是否合適。
有鑑於此,IBM 團隊整理了一套修訂版本,不僅包括了簡單的內容,還描述了各措施之間的關聯 —— 比如眼睛上方和鼻子下方區域的比例、膚色、對比度、以及著色型別。
此外,使用者的年齡也可被自動估計。人們被要求標記男性或女性的面部,並猜測其年齡。
當然,這裡肯定會存在一定的偏差,但與其它任何公開的面部識別訓練資料集相比,所有這些都可以在更廣義的尺度上去理解。
帶領這項研究的 IBM 研究員 John R. Smith 在一封電子郵件中稱:
在文化和生物學上,種族之間的界限並不明顯。我們選擇專注於能夠可靠測定的編碼方案,為多樣性分析提供一定規模的支援。