揭祕暗資料別以為你懂大資料

首頁>科技>意見英雄2019-10-07 05:59

揭祕暗資料別以為你懂大資料

Gartner曾指出，暗資料應該提醒企業改變未被利用的資料的現狀。所謂暗資料，就是泛指沒有被髮掘和理解的資料，形式可以是文字、影象、音視訊等等，既可以是結構或非結構化資料，也可以是暗含在暗網中的資料。現在，全球企業的“暗資料”不斷累積，並已成為大部分企業的主要安全盲點。

根據Veritas委託Vanson Bourne對15個國家及地區的1500名IT決策者和資料管理人員開展的《發揮企業資料的力量》調研顯示，在安全問題日益嚴峻，資料合規條例越發嚴苛的當下，仍有超過半數（52%）的企業資料未進行分類或標記。企業在大量的潛在關鍵業務資料上，可視性非常有限，甚至根本不可見，這一疏忽導致企業資料成為黑客攻擊的主要目標。

對資料實行分類有助於企業快速掃描並標記資料，確保無論資料處於何處，都能對其實現妥善的管理和保護，並正確識別敏感或風險資訊。這一資料標記及資料可見性的相關應用，有助於企業在其資料資產範圍內強制實施各式資料保留策略，從而更好地遵守數目日益增多、條款日益嚴苛的資料保護法規，實現資料合規。

GDPR的出現無疑給人們上了課。近日，某家IT公司被指在沒有獲得使用者許可的情況下，在社交網站上捕捉了百萬張照片，並將其用作人臉識別演算法的訓練模型，對面部五官、頭部特徵等近50個標記進行了分析。這種做法的好處不言而喻，科技公司可以幫助行業客戶拿到更準確的資訊，例如讓零售商了解消費者的商品喜好、購買時間，甚至是識別出特定的某個人。

類似的情況在物聯網場景中也有應用，如智慧音箱對使用者語音語義的收集、無人駕駛系統對行進路線的採集等等，人們除了要在資料合規的基礎上，開放更多的資料來源，還要藉助區塊鏈等新技術或手段為這些資料建立完善的稽核機制。再比如Facebook，會利用AI來預測使用者的未來行為，作為廣告投放的依據，所參考的資訊包括：位置、裝置資訊、圖片/視訊瀏覽記錄、WiFi連線狀態、好友關係、聊天內容等等，讓人們就像是生活在真空中。

顯然，這種方式對使用者隱私是不友好的，而使用者本人並沒有選擇權。更需要引人深思的是，用AI在網際網路的每個角落去挖掘資料，並把這些資料扔到機型學習模型裡貼上標籤供研究人員使用。在去年5月的GDPR頒佈之後，包括Facebook在內的多家IT公司都遭到了重罰或警告。

在過去一年內，一系列國際資料保護法規相繼出臺，包括歐洲《通用資料保護條例》（GDPR）、《加利福尼亞州消費者隱私法案》（CCPA），以及最近的新加坡《個人資料保護法案》（PDPA）。嚴格的資料合規要求下，保護資料隱私成為每個企業都需要面對的事情。那麼，企業究竟該如何做呢？

值得一提的是，美國參議院已經在討論是否要通過新的法案，限制科技公司利用技術手段獲取的使用者資訊不能用於某些用途，也就是說商用的影象識別應用不能用來定位和追蹤使用者資訊。更重要的是，使用者必須知情且同意後才能讓資料共享給第三方。

掌握使用者資訊之後的AI系統可能比使用者更了解自己，他們會知曉使用者的飲食習慣、鍛鍊情況、身體變化等等，而且將碎片化的資料拼湊成分析系統就能對人形成整體的特徵描述。特別是在越來越多的政企類客戶走上雲端之後，居民隱私的問題就被上升到了新的層面。

要知道，網際網路飛速發展引發的資料大爆炸可謂是一把“雙刃劍”，在帶來經濟效益、促進社會發展的同時，也使得資料隱私面臨更大風險。目前，消費者對於第三方收集、挖掘和使用資料（尤其是個人相關資料）的安全意識日益增長。Hootsuite報告提到，全球大約42%網際網路使用者（近20億人）對資料隱私問題心存顧慮，資料隱私成為當下不容忽視的問題。

公有云和移動環境是企業資料安全最薄弱的一環，這些環境中的大部分資料很可能未經分類，且未受保護。僅有5%的全球企業表示，其公有云中的全部資料均已實行分類管理，6%的全球企業則表示，他們對移動裝置中的資料也全部實行了分類管理。而在中國，這兩個數字更是僅有1%。約五分之三（61%）的全球企業則坦言，其公有云中實行分類的資料不到一半。超過三分之二（67%）的全球受訪者表示，其在移動裝置中實行分類的資料也不到一半。

由此可見，大部分企業對暗資料的儲存往往會忽視，而這恰恰成了網路犯罪分子和勒索軟體攻擊的首要目標。要知道，平均每家公司擁有數十億份資料檔案，靠人工進行分類和標記資料是一大難題。因此，只有企業對資料了解得越透徹，才能夠越準確地判斷資料的價值及風險。

劇多

揭祕暗資料別以為你懂大資料

大資料

軟體

Facebook

人工智慧

高德納集團

相關內容

劇多

揭祕暗資料 別以為你懂大資料

大資料

軟體

Facebook

人工智慧

高德納集團

相關內容

揭祕暗資料別以為你懂大資料