前言:
在資料領域,安全和發展一直是兩大主題。對企業來說,這兩個主題一直是矛盾的。一方面出於商業需求的考量,需要資料的流通來發揮資料的價值。另一方面出於合規的要求,需要採取控制措施對資料進行保護,保障資料的安全。而控制措施在一定程度上會嚴重限制資料的流通。所以企業一直在尋求資料流通和資料保護的最佳平衡點——在保障資料安全的前提下如何實現資料的價值。在技術領域,隱私計算技術作為一項重大的技術創新,也許能幫助我們來解決這個資料困境。本文將嘗試回答以下問題:1.隱私計算技術是什麼?2.瞭解隱私計算對我們法律人有什麼幫助?3.目前隱私計算面臨的挑戰有哪些?
筆者雖具有技術背景,但是對於最近2年才火熱的隱私計算技術也是知之甚少,撰文更多的是希望法律屆的同仁對隱私計算技術有所認知,便於未來在開展資料合規工作中更好的與技術人員交流,同時加入探討隱私計算技術合規性的隊伍中來。本文結合中國信通院的隱私計算大會和隱私計算白皮書,拋磚引玉,期待同仁更好的文章。
一、隱私計算技術是什麼?
隱私計算技術,顧名思義是一門技術,但是它並不是具體哪一門,而是一個技術集,其中包括了一系列的技術。同區塊鏈融合了密碼學、經濟學、軟體工程、通訊工程等不同學科一樣,隱私保護計算也並非單一學科的技術,也而是一種融合了多種學科的技術體系,包括了密碼學、資料科學、經濟學、人工智慧、計算機硬體、軟體工程等。國外將隱私計算技術描述為“隱私增強計算技術”,並將其列為未來幾年科技發展的九大趨勢之一,因此備受關注。
從隱私計算白皮書給出的概念來看,隱私計算是指在保證資料提供方不洩露原始資料的前提下,對資料進行分析計算的一系列資訊科技,保障資料在流通與融合過程中的“可用不可見”[1]。本文將從概念角度進行解析隱私計算。
(一)一系列資訊科技
首先筆者試圖解析的是“隱私計算技術包括哪些具體的資訊科技”。目前隱私計算技術已經形成了以多方安全計算、聯邦學習、可信執行環境為代表,混淆電路、秘密分享、不經意傳輸等作為底層密碼學技術,同態加密、零知識證明、差分隱私等作為輔助技術的相對成熟的資料體系[2]。其中多方安全計算、聯邦學習、可信執行環境,是目前主流的三大技術,正處於快速增長的技術創新階段或者已達到技術成熟的預期峰值,需要我們重點關注和理解。
(1)多方安全計算(MPC)
筆者本科就讀軟體工程專業期間,曾接觸過姚氏百萬富翁問題——在無可信第三方的情況下,兩個百萬富翁Alice和Bob要在不暴露自己財產的情況下,比一比誰更有錢。百萬富翁問題的解答就用到了多方安全計算。所謂多方安全計算可以理解為,在無可信第三方的情況下,多個參與者共同計算出一個目標函式(方程式),每一方只得到自己的計算結果,同時保證計算過程中不洩露其他任何資料。例如,ABC公司都想使用對方的資料得以訓練最佳化自身的演算法,但是各方出於資料安全合規的要求,不能隨意洩露自己所控制的私有資料,如果採取使用者授權同意的方式,無疑難度巨大。這時引入多方安全計算,ABC公司將各自私有的資料輸入該機制中進行計算,最後得到的只有計算結果,在計算過程中ABC都不會知曉彼此的私有資料,這就是多方安全計算的大概。可以預見,該技術可以很好的解決資料流通中的資料安全問題。
(2)聯邦學習(FL)
學習解決的問題是“羊如何吃草”。假設有一頭小羊,想吃各自不同營養成分的草料,你需要去各地收集草料再運送回來餵它。但是有一天,各地都禁止將草料向外運輸了,你該怎麼辦?聯邦學習給出了答案。之前是採用將各地草料收集好後運回來餵養小羊,即所謂“羊不動,草動”的模式。現在聯邦學習提出,採用“羊動,草不動”的模式,即讓小羊自己到各地去吃草,這種方式的好處在於你並不知道吃進小羊肚子裡的草長啥樣。這樣的變化,看上去沒什麼太大的區別,但是如果我們把場景從草場切換到資料領域,就會有巨大差異。在資料領域,特別是人工智慧時代下,我們需要透過大量的資料來訓練最佳化演算法,我們把小羊換成演算法,把草換成資料。過去在資料野蠻時代,企業通常無需考慮隱私保護和資料安全問題,當時資料的流通幾乎是無障礙的。但是現在出於監管的壓力,企業需要考慮隱私保護和資料安全的問題,因此就出現了“各地都禁止將草料向外運輸”的現狀,保證資料不出域,也就是所謂的“資料孤島”問題。這種情況下,企業只能透過自己控制的資料來提升演算法,這對於企業自身核心演算法的提升會非常單一,也極易陷入瓶頸(羊長不大或者容易長歪)。我們需要讓演算法攝入更多不同型別的訓練資料(不同的企業掌握的資料型別不同),得到一個更最佳化的演算法(健康的小羊)。這時我們透過聯邦學習,讓資料留在本地,不出域,而讓演算法模型進行移動。
(3)可信執行環境(TEE)
前面兩個都是關於軟體層面的,而可信執行環境卻是硬體層面的技術。可信執行環境具體是指CPU的一個安全區域,它和作業系統獨立開來,且不受作業系統的影響。可以說可信執行環境是一個比作業系統更安全的地方,在裡面儲存和計算的資料不受作業系統的影響,是保密且不可篡改的。但是相對於多方安全計算和聯邦學習來說,可信執行環境是需要一個可信第三方的存在。
在網際網路行業裡,有人喜歡將隱私計算以“江湖門派”的形式進行分類,便於理解:
安全多方計算(MPC)是少林派,歷史悠久,功力深厚,最早可以追溯到上世紀80年代,有秘密共享、傳輸混淆電路等一些非常強大的獨門武功。
可信執行環境(TEE)是華山派。透過硬體技術來對資料進行隔離保護,以Intel等廠商為代表,國內包括螞蟻金服等公司將之整合到自己的隱私計算平臺。
聯邦學習(FL)是武當派。它是隱私計算的後起之秀,就像武當派張三丰師出少林一樣,聯邦學習結合密碼學和分散式計算,實現了多方協作的機器學習,在人工智慧領域開闢了新天地。
除此之外,還有同態加密、零知識證明、差分隱私等這些輔助性的技術或常應用,同樣非常有用,好比泰山派、峨眉派,它們共同組成了豐富多彩的隱私計算江湖[3]。
(二)可用不可見
隱私計算技術的目的是讓資料在流透過程中實現“可用不可見”,實現只輸出資料結果而不輸出資料本身。所謂“可用不可見”,即在資料流透過程中,透過隱私計算技術,讓各方在不知曉對方私有資料的情況下,使用其他各方的資料來訓練最佳化自己的演算法。從資料權屬上看,各方對他方的資料只有使用權沒有所有權,從而滿足資料流通的合規性。根據《網路安全法》第四十二條網路運營者不得洩露、篡改、毀損其收集的個人資訊;未經被收集者同意,不得向他人提供個人資訊。但是,經過處理無法識別特定個人且不能復原的除外。換句話說,《網路安全法》規定了兩種資料流通的合法性基礎—授權同意和無法識別且不能復原(可以理解為匿名化)。隱私計算技術實現的“可用不可見”,可以讓資料匿名化流通,這就可以滿足“無法識別且不能復原”的合規要求,無需在資料流通環節再次獲取個人的授權同意,這將大大的減少企業合規成本。
在基本瞭解隱私計算後,我們其實預見到隱私計算技術將是一項重大的技術創新。作為資料要素流通的一種方案,隱私計算如果可以落地,就能很好的幫助企業解決資料困境問題。但是對於我們法律人,瞭解隱私計算有什麼好處呢?
二、瞭解隱私計算對我們法律人有哪些幫助?
作為法律人,筆者認為了解隱私計算技術對我們的幫助可以總結為以下三點:
(一)瞭解隱私計算,可以幫助我們更全面更深入的瞭解資料領域。
眾所周知,經濟學上有三駕馬車—投資、出口和消費。在資料領域,筆者認為也可以歸納出三駕馬車,即政策、管理和技術。所謂政策,主要是指法律,即資料領域的相關法律法規,這是國家或地區層面。管理,指企業自身的合規,包括資料合規管理體系建設等,這是企業或者單位視角。技術,目前主要指的是隱私計算,從技術角度出發來解決資料困境。作為法律人士,我們對政策、管理都非常的瞭解,但是大部分人很少了解技術。所以說,如果缺失對重大技術的瞭解,我們其實對於資料領域的瞭解是不全面、不深入的。
(二)瞭解隱私計算,可以幫助我們在與技術的遭遇戰中知己知彼。
對於很多不瞭解技術的法律人來說,在遇到技術問題時,往往是一場遭遇戰。對於資料合規領域的律師來說,在資料合規的業務場景中,必然會遇到或多或少的技術問題,其中就可能包括目前最前沿的隱私計算技術,這是無法避免的。特別是在隱私計算已經逐步在網際網路大廠、初創公司、運營商、金融科技公司中鋪開,其相應產品也在陸續進入試點或者實施階段。我們在越來越多的場景中發現了隱私計算的身影,比如電子政務、聯合營銷、聯合風控、智慧醫療、智慧城市、智慧能源等場景。可以說法律人和隱私計算技術遭遇的可能性正在變得越來越大。在遭遇戰到來之前,提前瞭解或許會幫助我們。
(三)瞭解隱私計算,可以幫助我們的資料合規順利落地。
在我們的資料合規法律服務中,很多場景下要求我們法律人員需要懂一點技術。比如,在調研階段,我們對於技術部門進行盡調時,需要我們提得出有意義的問題,聽得通技術人員的解答。在我們的合規制度制定和實施階段,需要我們提出配套技術措施來保障合規的落地。特別是在隱私計算技術可能幫助解決資料流通環節下的資料困境,提升資料流通環節的合規性時,更需要我們法律人士去了解隱私計算。可以說資料合規法律服務的落地需要法律與技術的對話和深層次結合。
上面說到,在資料合規領域,法律和技術往往具有更為密切的聯絡,它要求我們法律人不僅需要懂政策,還需要懂點技術。但是當我們經歷了快播,區塊鏈,還有人工智慧後,我們都認識到技術是容易“變味”的,這也讓我們質疑技術本身的中立性。至少我們認同技術本身不可能遊離於社會規範之外,那麼我們也就有必要來討論隱私計算本身可能存在的技術問題、落地問題以及其合規性。
三、隱私計算面臨的挑戰有哪些?
筆者透過總結業內人士的觀點,發現目前隱私計算的應用依然面臨著巨大的挑戰,尚無法實現大規模應用。
首先,技術本身面臨難題。目前業內討論最多的問題還是隱私計算平臺的互聯互通。由於隱私計算尚缺乏統一的標準,各大平臺(包括國外的微軟、谷歌、臉書,還是國內的阿里、騰訊、微眾、位元組等)的演算法原理和技術架構都不同,平臺之間所依託的資料難以實現互聯互通,就可能導致“資料孤島”演變為“平臺孤島”。雖然異構平臺和開源架構的出現都趨向於資料的互聯互通,但是廠商們各自的商業考量才是隱私技術平臺互聯互通的關鍵。同時,隱私計算技術本身的安全性也難以保障,比如無法保障演算法的絕對安全。可以說,如果把資料的流通比喻為武裝押運,目前的隱私計算技術就好比浮橋一般,晃晃悠悠的,離鋼筋混凝土的大橋還相差甚遠[4]。打鐵還需自身硬,隱私計算技術的成熟度還有待加強和認證。
其次,技術存在認知難題。認知層面主要有兩個問題,難以理解和過度誇大。隱私計算的落地需要技術部門、職能部門、業務部門的協同配合。技術部門需要把隱私計算透過通俗易懂的語言講解給職能部門、業務部門以及客戶,但對於這項非常前沿的重大技術創新,這對技術人員來說是一個巨大的挑戰,而且絕大部分的技術人員只關注技術本身,這就給協同配合帶來溝通上的巨大鴻溝。另外,目前有些企業或者產品,過度誇大技術產品的效能,將一些還未實現的效能進行提前宣傳,這本身就是在過度的誇大技術產品,不利於行業的健康發展。
最後,技術本身的合規問題。隱私計算作為一種資料流通方案,雖然可以提升資料流通的合規性,但是同樣面臨著一些合規問題。根據隱私計算白皮書,目前隱私計算包括以下4點合規問題。
原始資料存在合規瑕疵。考慮可能存在透過反向工程來獲取原始資料的可能性,企業不能僅依靠隱私計算技術來為資料流通保駕護航,還需要儘可能的去獲取使用者的授權同意,雖然授權同意的難度極大。
模型存在洩露可能。考慮到模型存在洩露可能,從而導致原始資料可能丟失,這種情況下還需要對模型的洩露風險進行控制。
參與方存在安全隱患。做個壞人很容易,做好人卻很難。我們無法低估人性的惡,同時我們也無法排除某些參與方可能會透過主動違約來獲取某些額外的資訊,或者部分參與方惡意合謀獲取其他參與方的資料。這些情況下,都需要在我們都合規體系中有所體現,好比木桶效應一樣,合規體系必須是全覆蓋的,否則合規只是口號。
輸出結果可能洩露敏感資料。我們無法排除輸出結果不存在隱私風險,比如在徵信機構的預測場景中,如果在輸出結果中洩露了借款人的ID,就可能洩露借款人本身的借款需求[5]。
綜上,隱私計算在當下仍然存在較大的技術風險、巨大的認知難題、潛在的合規問題,可以說目前的隱私計算尚無法承載救世主的角色。即使未來,隱私計算技術的成熟度已經足夠,我們也很難講單靠一項技術就可以實現資料合規,更何況隱私計算計算只針對資料流通環節。合規強調全覆蓋,資料有自己的生命週期,資料合規就意味著需要對資料的全生命週期進行合規管理,而不僅限於資料流通環節。當然,作為一項重大技術創新,隱私計算所實現的“可用不可見”是具有重大技術價值的。在資料流通環節,我們需要將以隱私計算為代表的技術融入到合規管理體系中,幫助我們更好的讓合規落地,保障企業的資料安全。
參考文獻:
[3]雷鋒網:百家廠商的「技術覺醒」:隱私計算,將是下一個「Intel Inside」。
[4]隱私計算大會:行業應用圓桌會議講話。
吳慧康,德恆南京辦公室專職律師,涉外與合規法律事務部成員,具有法律和計算機雙重背景,法律碩士。主要執業領域為公司合規管理體系建設、公司治理、網路安全與資料合規、訴訟與仲裁。
宣告: