編者按:
交通事故、醫療事故頻發,AI究竟是幫手還是威脅?
“如果不謹慎對待 AI,未來它可能成為人類的終結者。”——馬斯克如是說。誠然,這只是輿論的一種方向,但AI的安全性的確越來越受關注。
自動駕駛領域AI事故時有發生
導語根據最新 AI 事故資料集 AIID(AI Incident Database)顯示,AI 在行業應用中已發生超1000 次“翻車事件”,涉及 78 個不同類別。在這些事故中,有的可能只是鬧了個笑話,而有的已經對人類造成了實質性傷害。AI系統如果沒有足夠的“免疫力”,甚至會被一張圖片欺騙,如在自動駕駛中將停車標誌識別為通行,在醫療應用中將有問題的醫療影像識別為正常影象等。經CAA“體檢”後,AI安全專家可針對被檢測AI的薄弱地帶提出安全建議,助力AI魯棒性(穩定性)檢測,以此增強AI系統的安全性。近日,該研究成果《Composite Adversarial Attacks》被人工智慧領域頂級國際會議AAAI2021接收。AAAI2021從7911篇有效投稿中錄取了1692篇論文,錄取率約為21%。
1.合成多個演算法,形成最強攻擊橫向對比業界的其他工具箱,阿里安全圖靈實驗室的自動化對抗攻擊平臺首度實現對抗攻擊的“工具化”。它讓攻擊者在沒有任何專業領域知識的情況下,也可以進行AI模型的對抗攻擊和魯棒性測試。為幫助AI應用從源頭構建安全性,阿里安全圖靈實驗室整理歸納了學界針對AI模型提出的32種攻擊方法,以此為基礎搭建了一個自動化AI對抗攻擊平臺CAA(Composite Adversarial Attack),幫助檢測AI系統存在的安全漏洞。除此之外,阿里對抗攻擊平臺透過自動化搜尋技術來合成多個攻擊演算法的組合,該特性提升了現有模型攻擊方法的效能和效率。
該論文透過實驗表明,CAA超越了最新提出的攻擊方法,是威脅當前AI系統安全的最強攻擊。對抗攻擊是當下AI系統的新威脅,它使得很多在現實世界中應用的AI系統存在的安全漏洞極大地暴露了出來,例如汽車的車道檢測系統被攻擊所欺騙,導致汽車在自動駕駛系統不發出警告的情況下駛入錯誤車道。
除了自動駕駛,在每天資訊爆炸增長的網際網路上,一些暴力色情的資訊也需要AI模型去自動過濾,但是經過對抗攻擊處理的資訊可以輕易的繞過識別模型,影響清朗的網路空間。近年來,學界提出了多種實現對抗攻擊的方法,他們都被整合在各大工具箱中。如圖所示,研究者通常利用這些工具箱實現的攻擊演算法,在原圖上新增肉眼不可感知的對抗擾動,從而欺騙目標模型使得一張色情圖片被錯誤判斷為正常。
透過對抗攻擊繞過色情識別系統的簡單圖例
左圖為合成對抗攻擊示意圖,右圖是CAA和現有方法的對比
2.演算法自動選擇最優攻擊組合和引數在不知道目標模型的防禦細節的情況下,研究者很難根據經驗選擇到對當前模型最優的攻擊演算法。
例如,對抗訓練的模型對PGD、FGSM等梯度最佳化攻擊很魯棒,但是對圖片的Spatial transform很脆弱,反之經過影象平移旋轉資料增強的模型對Spatial transform魯棒,而PGD、FGSM則很容易攻擊成功。這個現象說明利用現有工具箱實現的攻擊方法去盲目嘗試和微調是低效的。
因此,為了更精準的檢查目標模型的漏洞,獲得全面的魯棒性報告,通常需要合成多個對抗攻擊。其次,完成對抗攻擊有很高的門檻,研究者需要從多個工具箱整合的多個攻擊演算法不斷的嘗試,調整引數,這一步要求攻擊者具備一定的領域知識和經驗,並且具備一定規模的計算資源。
以事前“攻擊演練”檢測AI系統的安全性,是當前提升安全AI的有效方法,也是阿里提出新一代安全架構,從源頭構建安全的核心理念。阿里安全圖靈實驗室的專家首次提出將自動化技術引入到對抗攻擊中,使得所有攻擊對抗細節和引數作為一個黑箱,而研究者只需要提供目標模型和資料,演算法就會自動選擇最優的攻擊組合和引數。
32種基礎攻擊演算法
對於暴恐、色情識別等安全防控AI,模型可靠性和魯棒性顯得尤為重要,而阿里安全圖靈實驗室提出的自動化對抗攻擊平臺現已經在內部場景進行使用,對業務場景的識別模型進行更加可信的魯棒性評估。同時,演算法開發人員可以根據魯棒性評估結果檢查模型的安全漏洞。以AI體檢AI,以AI訓練AI。
對識別黃、賭、毒等不良內容的安全檢測AI而言,模型可靠性和魯棒性顯得尤為重要。
目前,在鑑黃演算法上,圖靈實驗室正在藉此技術方法提升曝光、模糊、低畫質等極端分類場景下的模型識別能力,並且逐漸提升模型在極端場景下的魯棒性,為業界提供更安全可靠的AI演算法能力。