大資料時代下，“匿名化”真的能保護我們的隱私安全嗎？

首頁>Club>2021-01-22 08:20

大資料時代下，“匿名化”真的能保護我們的隱私安全嗎？

回覆列表

1 # 科技公眾網

要看什麼匿名，如果是中心化的匿名，最終只能有限的保護我們的隱私，因為存在破解和攻擊的可能，就連facebook的資料也被竊取過，所以中心化的可逆的加密保護是無法真正保護隱私的。
自從去中心化區塊鏈流行起來，這項技術得到了快速的普及。區塊鏈這種去中心化的單向加密的方式目前是無法破解的，除非私鑰被盜。
我們看到的比特幣被盜都是私鑰被盜導致比特幣丟失。不要誤以為是區塊鏈技術被破解。
所以，未來繼續去中心化的區塊鏈才是能夠真正保護隱私的。

2 # 科技行者

過去十年以來，我們收集與儲存個人資料的能力呈現出爆炸式的增長。由於全球三分之二的人口能夠訪問網際網路，電子病歷成為常態，物聯網亦快速興起，這種趨勢很可能迎來愈演愈烈之勢。透過填寫線上調查或者統計瀏覽習慣，從金融或者醫療服務當中大規模收集到的資訊擁有令人意外的巨大潛力。其推動了醫學、社會科學以及人工智慧的科學進步，並有望徹底改變企業與政府的運作方式。
然而，大規模收集並使用詳盡的個人級資料也帶來了法律層面的隱私難題。最近，DeepMind共享英國國家健康服務局（NHS）醫療資料以及劍橋分析公司大量購買Facebook資料集等事件，都讓人們愈發關注個人資料的保密性、隱私性與道德使用等問題。

為此，資料匿名化也開始受到了廣泛關注。所謂匿名化，就是在共享資料集內容之前首先其其中的身份資訊進行剔除，這也是各類研究與商業機構所採取的主要個人隱私保護正規化。全球範圍內的各類資料法普遍認為匿名資料不再屬於個人資料，允許各方自由使用、共享以及銷售。例如，學術期刊正越來越多地要求作者向研究界提供匿名資料。雖然匿名資料的標準各不相同，但現代資料保護法（例如歐盟〈通用資料保護條例〉（GDPR）以及〈加州消費者隱私法案〉（CCPA）等）都認為資料集中的每個人都應透過匿名化方式得到保護。GDPR提出的要求進一步明確了這種新的匿名化標準：資料不應包含可能導致真實身份復原的明顯身份識別因素，這也將匿名化問題正式歸入法律範疇。
而為了保護這些有意或者無意間將自己的個人資訊交予資料庫的使用者，大多數機構也會消除資料中的身份資訊。在具體流程中，他們會刪除明顯的個人身份標識，包括姓名與社保號碼；有時也會採取其他預防性措施，例如向集合中引入隨機“噪聲”資料或者利用常規標識替換特定細節（例如將1990年3月7日出生，調整為1990年1月至4月間出生）。處理完成之後，代理機構即可釋出或者出售這部分資訊。

>>> 資料匿名化處理被證明無效

然而，事實證明，經過匿名化處理的資料集無法成功解決個人身份被複原問題。

2016年，記者從300萬德國公民的匿名瀏覽歷史資料集當中重新識別出多位政治家，並據此得到了其醫療資訊與性取向結論。幾個月前，澳洲衛生部公開發布了涵蓋國內10%人口的去身份醫療記錄，但研究人員僅在6周之後就完成了重新識別。在此之前，有研究表明，我們完全可以利用基本人口統計學屬性結合診斷資料、出生年份、性別以及種族等基因組研究資料實現患者身份的唯一性識別。最後，研究人員們還發現，來自紐約的計程車路線、倫敦的共享腳踏車使用方式、里加的地鐵出行資料以及行動電話與信用卡資料集等所謂匿名資訊，都可用於對個人進行唯一性識別。
關於這個論題，倫敦帝國理工學院計算隱私助理教授Yves-Alexandre de Montjoye作為作者之一，日前在《自然：通訊》雜誌發表了名為《利用生成模型估算透過不完整資料集復原個人身份的成功率》（論文連結：https://www.nature.com/articles/s41467-019-10933-3）的研究論文，他表示，在過去25年當中，資料匿名化的基本作用就是在幫助我們在利用資料進行統計與研究之外，保護人們的隱私。然而，大部分常用的匿名化技術起源於二十世紀九十年代，也就是網際網路快速發展之前。換言之，這些匿名技術並沒有考慮到網際網路在收集個人健康、財務、購物以及瀏覽習慣等細節方面的強大能力，從而使得我們能夠相對容易地將匿名資料與特定個人關聯起來。
例如，如果私人偵探打算在紐約市尋找某人，已經確定其為男性、年齡在30到35歲之間且患有糖尿病，那麼搜尋工作將簡單得多。如果再配合其生日、孩子數量、郵政編碼、所在企業以及所擁有的車輛型號，那麼他們甚至可以很快推斷出此人的真實身份。

過去幾年以來，Montjoye和其他研究人員曾先後發表多份研究報告，探討如何透過匿名購物資料或者健康記錄復原個人身份。他們提出了一種基於copula的生成方法，其能夠在完整度極低的資料集當中準確估算出特定人士被正確重新識別的可能性。在總計210名測試物件當中，他們的方法獲得的個體唯一性預測AUC分數範圍在0.84至0.97之間，代表其準確率已經非常可觀。利用這套模型，他們發現在使用15項人口統計屬性的任意資料集當中，美國普通民眾的真實身份有99.98%的機率被成功復原。雖然15項人口統計資訊聽起來很多，但其中卻蘊藏著不容忽視的大問題——2017年，一家營銷分析公司曾意外發布了包含248項屬性的匿名資料集，涵蓋美國1.23億個家庭。
配合社會人口統計學、調查與健康資料集，Montjoye及其團隊證明這套模型在估算群體唯一性時的平均絕對誤差（MAE）為0.018；即使僅利用1%的資料比例進行訓練，其MAE仍可達到0.041。經過訓練，模型能夠準確預測出個體的重新識別結論是否正確：如果設定95%的準確度作為閾值(ˆ>0.95)，則其平均錯誤率低於6.7%——比現有最佳估算方法的錯誤率低39%。

而隨著可用屬性數量的增加，群體唯一性判斷準確度也將快速提升。此外，他們的研究結果還表明，即使是在重度採集資料集當中，該模型仍可以相當高的準確度估算特定個體被正確重新識別的可能性。實際結果推翻了目前常被提及的兩種觀點：1）重新識別並不構成實際風險；2）抽樣或者釋出部分資料集能夠提供理想的匿名保護效果。
也就是說，在大量取樣條件下，即使是匿名資料集也很難滿足GDPR提出的現代匿名化標準。這無疑給我們習以為常的匿名化處理後直接釋出流程在技術與法律兩個層面提出嚴重挑戰。

>>> 資料保護需要跨學科研究與政策制定並行

那麼，這會給我們的個人資料造成多大的風險？在這項新研究中，研究團隊創建出一款數字工具，允許個人網際網路使用者檢視利用匿名資訊復原其真實身份的可能性。根據這款工具給出的結論，普通使用者有83%的可能實現成功復原。除非拒絕資訊收集，否則人們幾乎沒辦法解決這個難題。

西北大學凱洛格管理學院營銷學副教授Jennifer Cutler（並未參加此項研究）表示：“偏執的消費者可能會停止在網路上釋出任何內容、停止使用網際網路服務、不使用任何應用程式、放棄智慧手機、不使用信用卡等等——但這些在如今這個時代下顯然不切實際。我們目前的生活基本都與網路密不可分，而且必須要在各種因素之間做出權衡。政策制定者之所以沒有完全限制資料的收集與共享，是因為資料收集與共享確實能夠產生巨大的積極作用。”
相較於完全禁止收集資料，Montjoye給出的建議是，資料中間商應該開發出新的匿名化技術並加以嚴格測試，從而確保第三方無法根據統計資料識別出個人身份。他解釋稱，“這個問題主要針對當前匿名化方法。目前，我們看到的問題只是冰山一角。但令人擔憂的是，其並不能達到防止個人身份曝光的作用。我們需要制定更高的標準，並對具體方法進行審查。”

由於個人的資料追索權非常有限，有些人認為資料中間商的標準提升之路可能需要立法層面的推動。此項研究的共同作者、比利時魯汶天文教大學博士生Luc Rocher指出：“由於資料經過匿名化處理，因此資料收集方不必向資料主體徵求意見。我認為，這更多屬於法規責任範疇的問題，應由立法機構為我們的個人資料提供保護。”
Cutler也對立法支援這一觀點表示贊同。她認為，“跨學科研究人員與政策制定者確實需要持續開展工作，按照論文中提到的方式建立基於證據的法規。只有這樣，我們才能夠在保護使用者隱私與實現創新進步之間找到最理想的平衡點。”

劇多

大資料時代下，“匿名化”真的能保護我們的隱私安全嗎？

相關內容