Gartner曾指出,暗資料應該提醒企業改變未被利用的資料的現狀。所謂暗資料,就是泛指沒有被髮掘和理解的資料,形式可以是文字、影象、音視訊等等,既可以是結構或非結構化資料,也可以是暗含在暗網中的資料。現在,全球企業的“暗資料”不斷累積,並已成為大部分企業的主要安全盲點。
根據Veritas委託Vanson Bourne對15個國家及地區的1500名IT決策者和資料管理人員開展的《發揮企業資料的力量》調研顯示,在安全問題日益嚴峻,資料合規條例越發嚴苛的當下,仍有超過半數(52%)的企業資料未進行分類或標記 。企業在大量的潛在關鍵業務資料上,可視性非常有限,甚至根本不可見,這一疏忽導致企業資料成為黑客攻擊的主要目標。
對資料實行分類有助於企業快速掃描並標記資料,確保無論資料處於何處,都能對其實現妥善的管理和保護,並正確識別敏感或風險資訊。這一資料標記及資料可見性的相關應用,有助於企業在其資料資產範圍內強制實施各式資料保留策略,從而更好地遵守數目日益增多、條款日益嚴苛的資料保護法規,實現資料合規。
GDPR的出現無疑給人們上了課。近日,某家IT公司被指在沒有獲得使用者許可的情況下,在社交網站上捕捉了百萬張照片,並將其用作人臉識別演算法的訓練模型,對面部五官、頭部特徵等近50個標記進行了分析。這種做法的好處不言而喻,科技公司可以幫助行業客戶拿到更準確的資訊,例如讓零售商了解消費者的商品喜好、購買時間,甚至是識別出特定的某個人。
類似的情況在物聯網場景中也有應用,如智慧音箱對使用者語音語義的收集、無人駕駛系統對行進路線的採集等等,人們除了要在資料合規的基礎上,開放更多的資料來源,還要藉助區塊鏈等新技術或手段為這些資料建立完善的稽核機制。再比如Facebook,會利用AI來預測使用者的未來行為,作為廣告投放的依據,所參考的資訊包括:位置、裝置資訊、圖片/視訊瀏覽記錄、WiFi連線狀態、好友關係、聊天內容等等,讓人們就像是生活在真空中。
顯然,這種方式對使用者隱私是不友好的,而使用者本人並沒有選擇權。更需要引人深思的是,用AI在網際網路的每個角落去挖掘資料,並把這些資料扔到機型學習模型裡貼上標籤供研究人員使用。在去年5月的GDPR頒佈之後,包括Facebook在內的多家IT公司都遭到了重罰或警告。
在過去一年內,一系列國際資料保護法規相繼出臺,包括歐洲《通用資料保護條例》(GDPR)、《加利福尼亞州消費者隱私法案》(CCPA),以及最近的新加坡《個人資料保護法案》(PDPA)。嚴格的資料合規要求下,保護資料隱私成為每個企業都需要面對的事情。那麼,企業究竟該如何做呢?
值得一提的是,美國參議院已經在討論是否要通過新的法案,限制科技公司利用技術手段獲取的使用者資訊不能用於某些用途,也就是說商用的影象識別應用不能用來定位和追蹤使用者資訊。更重要的是,使用者必須知情且同意後才能讓資料共享給第三方。
掌握使用者資訊之後的AI系統可能比使用者更了解自己,他們會知曉使用者的飲食習慣、鍛鍊情況、身體變化等等,而且將碎片化的資料拼湊成分析系統就能對人形成整體的特徵描述。特別是在越來越多的政企類客戶走上雲端之後,居民隱私的問題就被上升到了新的層面。
要知道,網際網路飛速發展引發的資料大爆炸可謂是一把“雙刃劍”,在帶來經濟效益、促進社會發展的同時,也使得資料隱私面臨更大風險。目前,消費者對於第三方收集、挖掘和使用資料(尤其是個人相關資料)的安全意識日益增長。Hootsuite報告提到,全球大約42%網際網路使用者(近20億人)對資料隱私問題心存顧慮,資料隱私成為當下不容忽視的問題。
公有云和移動環境是企業資料安全最薄弱的一環,這些環境中的大部分資料很可能未經分類,且未受保護。僅有5%的全球企業表示,其公有云中的全部資料均已實行分類管理,6%的全球企業則表示,他們對移動裝置中的資料也全部實行了分類管理。而在中國,這兩個數字更是僅有1%。約五分之三(61%)的全球企業則坦言,其公有云中實行分類的資料不到一半。超過三分之二(67%)的全球受訪者表示,其在移動裝置中實行分類的資料也不到一半。
由此可見,大部分企業對暗資料的儲存往往會忽視,而這恰恰成了網路犯罪分子和勒索軟體攻擊的首要目標。要知道,平均每家公司擁有數十億份資料檔案,靠人工進行分類和標記資料是一大難題。因此,只有企業對資料了解得越透徹,才能夠越準確地判斷資料的價值及風險。