回覆列表
  • 1 # 使用者7424076759961

    人工智慧目前存在的難題是魚與熊掌不可兼得,也就是隱私性跟可用性難以兼顧。如果想要 AI 系統發揮作用,就可能需要犧牲隱私。但是,在大量真實場景中,如果做不到同時兼顧隱私和可用性,會導致很多 AI 落地的困境。

    在安全領域, Facebook 劍橋門事件(Facebook 被報道不正當分享其使用者資訊來影響美國總統大選的結果)讓很多企業和機構意識到資料隱私安全保護的重要性。過往,多機構資料聯合使用更多是依靠法律層面的合同文書來限制使用方的行為,一旦出事,再多賠償也無法有效彌補使用者隱私洩露的損失。因此,技術手段是必要的,從技術角度保證資料的多方使用者無法拿到原始資料,無法超範圍使用資料是避免資料洩漏和濫用的有效手段,這也是最近幾年相關技術在市面上影響力越來越高的原因,比如聯邦學習和多方安全計算。InfoQ 採訪到了螞蟻摩斯安全計算‍‍平臺研發人員逸昊,瞭解螞蟻集團所使用的多方安全計算與聯邦學習的差異性和技術難度。

    多方安全計算是什麼?

    隨著 2C 網際網路紅利日益遇到瓶頸,越來越多的創業公司走向 2B 創業。與國外相比, 中國的 2B 行業尚有很大發展空間。在此背景下,機構之間的互聯合作技術也越發重要,這是實現 2B 商業模式的橋樑和基礎設施。

    傳統機構之間的合作形態一般是提供方 - 使用者,即一方是服務提供方,另外一方是服務使用者,他9 a 8 ; L m # d們是上下游形態的商業關係,比如一家線上旅途 OTA 公司需要接入酒店預定的服務以最佳化旅遊體驗,旅遊公司會採購酒店預定服務提供商,技術上一般會使用 Web Service API 來連線。

    但是,隨著 2B 應用的深入發展,出現了新型分散式商業的業務形態,傳統的中心化 CS 技術已經不能滿足需要。以金融領域的聯合風控為例:某銀行要做網際網路貸款業務,不同於傳統的線下貸款,壞賬率對於業務成敗非常關鍵,需要對使用者進行更精準的風控刻畫,但是銀行本身關於使用者的資料是片面和匱乏的,需要和更多銀行、政府等機構進行合作。在此業務中,資料不再由一方提供,整體的風控演算法和引數需要多方協同一起完成計算。

    在這種情況下,我們需要構建分散式的商業形態來解決機構合作的信任和資料安全兩大問題。採訪中,逸昊表示多方安全計算是密碼學很重要的一個分支,其作用是在不洩露資料情況下實現協同計算,即讓多方基於共同的資料進行計算得到最終結果,但資料和中間計算結果在這個過程中不會洩漏給任何一方。這裡提到的計算是廣義層面的含義,可以指計算任務、機器學習任務、資料檢索等。

    與聯邦學習的差異性

    聯邦學習是谷歌於 2016 年提出的,初衷是用聯邦學習解決中心方(例如谷歌)使用大量手機終端使用者資料建模的問題,其設計目標是保護終端資料和個人資料隱私,終端資料不離開本地的前提下在中心方協調下完成建模。但聯邦學習自被提出之後,其場景範圍越來越廣泛。目前只要是基於多方資料進行聯合建模,且各自原始資料不對外輸出的建模都可以稱為聯邦學習。實際上業內 2000 年提出並一直在進行的多方資料機器學習工作都符合聯邦學習定義,谷歌在去年的文章中也承認了這一點。跟之前的這些工作相比,目前的聯邦學習也有其. @ f . G顯著特點,如 C 端場景為主t V m ~ 3 *、大多依賴中心方、大多采用部分隱私換取高效能的思路。

    逸昊認為,聯邦學習和多方安全計算既有共同點也有區別。雙方場景有共同點,比如涉及多方資料的聯合計算,但多方安全計算不限定是機器學習建模,也可以進行機器學習預測,或者統計分析等;‍‍二者之間的聯絡是很多聯邦學習方案其實用到了多方‍‍安全計算來保護資料隱私,但大多方案只保護了部分資料、部分計算過程,洩露了中間計算結果,只有少數‍‍方案是保護所有資料的整個運算過程‍‍。‍‍

    另外,聯邦學習也可能不使用多方安全計算,而是其他隱私保護技術,甚至類似普通的分散式建模不用隱私保護技術,跟多方安全計算的機器學習相比是犧牲隱私保護的程度換取效能提升、實現簡化。

    多方安全計 z { 9 | U ( g算的應用場景

    多方安全計算應用場景很廣泛,不限於機器學習。多方安全計算和聯邦學習在隱私保護程度上的差別使它們在機器學習上的應用也有所區別。

    在實際應用中,大多數聯邦學習方案的特點是犧牲部分隱私換取效能‍‍提升。‍‍‍‍這種方式是否合適?逸昊認為需要結合具體的應用場景來判斷。比如在實際使用中,應用場景是否能夠允許用這種比較弱的隱私保護方案;多方安全計{ v 0 ~ x g ! [算在應用中的重點是效能是否能夠滿足業務需求,因為多方安全計算對隱私要求非常嚴格,弱點在於效能上面有損失‍。 ‍‍‍‍

    聯邦學習最開始是‍‍谷歌提出來的,起初主要應用在 C 端,這個場景是非常合適的。‍首先,最終訓練出來的模型是給中心方谷歌的,方案中中心方獲得模型是合理的‍‍。其次,在谷歌最初定義的場景中,資料來源於每個終端,各終端間的資料是同質關係。在聯邦學習裡面通常叫做‍‍橫向聯邦學習,這種情況下的方案一般洩露的中間計算結果是批次樣本的匯聚資訊(比如批次樣本的梯度資訊),洩露的敏感資訊相對較少。

    如果是機構之間的合作,就需要根據不同的應用場景進行選擇,比如與上述類似的橫向聯邦學習問題不大。但如果是縱向聯邦,‍‍‍‍不同參與方之間的資料‍‍維度不同,隱私保護上就要特別小心。例如,不少縱向方案沿用了上述橫向方案的思路,模型讓一箇中心方得到或各方都得到部分模型,同時也洩露中間計算結果。在很多 2B 場景這種模型輸出方式是不可接受的,尤其是訓練敏感的金融風控模型。

    多方安全計算的技術難點

    在演算法方面,多方安全計算涉及的隱私保護技術和演算法非常多,其由四大類截然不同的‍‍基礎隱私保護演算法組成p K d 1 ~ 9 g,還包含一些小類但功能不多的演算法。這四大類分別是秘密分享、‍‍混淆電路、不經意傳輸、‍‍同態加密‍,其中又可細分出很多不同的演算法,‍‍功能不一,能做的運算不同,‍‍效能優缺點等都不一樣。‍‍通常,對於不同的計算任務,比如不同的統計指標還會有‍‍各種各樣的演算法。‍‍‍‍在商業應用中,為滿足效能和安全性要求,還需要配合使用一些其他技術。‍‍比如為了滿足安全性要求,還需要配合使用零知識證明演算法。要掌握這些演算法、靈活組合運用、實現它們以及設計新的演算法去滿足業務要求,其實難度很高。‍‍‍‍以螞蟻摩斯多方安全計算平臺為例,它使用了 30 多種‍‍隱私保護演算法,‍‍且這些演算法實現難度很大。不像很多 AES、RSA 大家非常熟知的通用密碼演算法都有成熟的開源庫,螞蟻摩斯用的很多演算法大多數是沒有開源庫的,或者開源庫達不到商用要求。螞蟻摩斯用了三年多時間來‍開發和最佳化,‍‍才最終滿足各種業務要求。

    在當前的多方機構資料合作場景中,多方安全計算節點會部署到各個機構,實現“資料‍‍不出域、資料隱私不洩露”的安全合作。那麼,除多方安全計算演算法外,異構網路下的分散式計算也是一大難度。

    在逸昊看來,多方安全計算平臺是一個‍‍分散式大資料系統,‍‍這個大資料系統與很多網際網路公司或企業內部的大資料系統差別很大:首先這涉及多管理域,多管理域的大資料分散式拓展是一個難點。‍‍更復雜的是,每個機構的網路架構不同,網路安全策略不一,‍‍計算資源和網路資源都差異很大,‍‍要把整個系統‍‍的效能和可靠性‍‍維持到很好的程度,挑戰很大,甚至還要把各機構之間的節點做到網路互聯互通。‍‍‍‍

    此外,在當前的機構環境下做到遠端部署、維護和升級也是一大難題。‍‍綜上,多方安全計算的技術難點一是體現在演算法層面;二是涉及多機構的分散式系統管理。

    人才緊缺

    如上文言,多方安全計算的技術難度和落地難度均不容忽視,螞蟻集團從 2017 年開始對此進行探索,初涉足時同樣面臨著上述問題。逸昊坦言,類似當初業界的 AI 人才短缺,多方安全計算目前也存在類似問題,以前業界需要密碼人才少,高校培養的密碼學專業的人才就比較少,其中多方安全計算方向的更是少之又少,相信更多人認識這個領域的價值後,這個問題會不斷改善。

    未來發展

    從安全性來看,為了簡化問題,‍‍學術界為多方安全計算定義了一個安全模型,叫半誠實使用者模型,假設‍‍每個參與方‍‍都是老老實實的執行所規定的演算法。‍‍一旦假設被違背,數+ y 9 p + C k ^ R據存在洩露風險。‍‍最近這幾年,學術界越來越多考慮更強的‍‍安全模型,假設參與方能夠隨意做惡、去偏離約定協議的,這種安全模型下的演算法在最近這幾年逐漸成熟。螞蟻集團也在進行相關探索,目前已經有大部分功能達到這一強‍‍安全模型要求。‍‍未來是希望可以做到全面支援,這就意味著安全性層面會有較大提升。

    多方安全計算技術發展了 30 多年,但由於它的隱私保護目標很高,效能挑戰大,效能雖然一直在提升,但可提升空間仍不小。以去年的國際隱私計算比賽 iDASH 為例。去年有 100 多支X h W g參賽隊伍,不乏谷歌、IBM、微軟、斯坦福、MIT 等名企名校,其中多方安全計算機器學習賽道各家方案效能差E 9 3 X Z 1 距巨大,螞蟻摩斯設計的方案最終奪得冠軍,其效能比其餘方案快幾倍到幾個數量級,‍‍甚至比業內隱私保護較弱的聯邦學習都快幾倍。今年,螞蟻摩斯又推出了新版本,效能又提高了數倍,大大縮小了跟本地明文計算系統的執行效率相比,但差距一直在縮小。

    螞蟻集團在多方安全計算上的佈局

    從技術路線上來看,螞蟻集團佈局的多方協同計算技術不限於多方安全計算,有共識計算和安全計算兩大方向。前者是區塊鏈技術為代表的分散式共識計算,以密碼學技術和共識演算法為基礎;後者是以 多方安全計算 MPC 和可信執行環境 TEE 為代表的安全計算,分別以密碼學技術和可信硬體為基礎。參與計算的資料型別也可以分為公域資料和私域資料,共識計算主要是解決公域資料的一致性問題,而安全計算主要是解決私域資料計算的資料隱私和輸出可信問題,包含隱私計算和可信計算兩個特性。

    共識計算 :面向公域資料,解決多家機構對於賬本、計算 (合約) 的分散式一致性問 題,最終多個機構對業務過程和結果達成共識,並且單一方不可篡改過程;

    安全計算 :面向私域資料,解決機構的資料安全和隱私保護問題,在不洩漏各自資料明細、中間計算結果的情況下僅僅公開最終計算結果。同時更進一步,最終結果也可以是可驗證的。

    兩者解決的問題不同,但兩者具備很好的互補性。共識計算不能解決資料的隱私問題,安全計算也不能解決輸入資料造假等信任問題,兩者結合起來才來兼顧信任和隱私問題。 此外,安全計算技術經常還需結合其他隱私計算技術(例如,差分隱私、零知識證明 ZKP、匿名化和脫敏技術)來使用。

    跟 MPC 和 TEE 相比,這些隱私計算技術一般不支援多方資料計算,或者不具備可信計算特性,但各種技術都有其特點如下圖,對頻寬和計算要求都不盡相同,目前還沒有“銀彈技術”,需要針對場景選擇合適的技術。

    對話螞蟻摩斯:多方安全計算與聯邦學習的差異性是什麼?

    除了單獨應用上述不同協同計算技術,螞蟻集團還靈活結合各種協同計算技術,全方位地保護資料隱私、保證資料可信。螞蟻的產品摩斯就整合上述各種技術,可根據實際場景和客戶需求靈活部署和運用各種技術。

    目前,螞蟻摩斯已經服務於各行各業,‍‍典型的應用場景比如金融聯合風控、聯合營銷、聯合科研、政務資料安全計算等。‍‍以金融風控為例,銀行透過該項技術與合作方做風控,效果提高了 25%。‍

  • 中秋節和大豐收的關聯?
  • 懷舊服薩滿圖騰宏怎麼設定?