在以往的文章中,已經給大家科普過了“什麼是數據脫敏”,“數據脫敏”中的“敏”就是指“敏感數據”。但什麼是敏感數據?數據處理者又是如何識別敏感數據的呢?
什麼是敏感數據?
敏感數據,是指洩漏後可能會給社會或個人帶來嚴重危害的數據。同時,敏感數據又稱隱私數據,包括所有不公開或未分類的信息,可能是組織需要保護的機密專有信息或因數據對組織的價值或組織為遵守現行法律法規而保護的人和其他類型的數據,例如個人身份信息(個人隱私數據)、受保護的健康信息、專有數據等。
1、個人身份信息
包括個人隱私數據,如姓名、身份證號碼、住址、電話、銀行賬號、郵箱、密碼、醫療信息、教育背景等;
2、受保護的健康信息
也包括企業或社會機構不適合公佈的數據,如企業的經營情況,企業的網絡結構、IP地址列表等;
3、專有數據
專有數據值得任何幫助組織保持競爭優勢的數據。比如,開發的軟件代碼、產品的技術計劃、內部流程、知識產權或商業秘密。
之所以要標識“敏感數據”,是為了保護數據安全。而為了區分不需保護的數據,受保護數據統稱為“敏感數據”。敏感數據只有一個標準來衡量,即數據的可見度或敏感度。即,數據是否要保護——數據的可見度,誰可以訪問(看)這個數據(數據敏感度)。
數據的可見度越低,數據的敏感程度(級別)越高。數據的可見度(敏感度)決定了在組織或企業內部什麼權限的人員可以訪問其敏感數據。
也因此,為了敏感數據安全,數據處理者如企業要對敏感數據進行脫敏,其目的在於通過隱藏敏感數據,以防止這些數據被濫用,提高數據安全性和保密等級,滿足數據安全管控要求。
正如此前對“數據脫敏”的介紹,敏感數據脫敏有兩種技術路線,一種是靜態脫敏,另外一種是動態脫敏,再有可以通過數據資產梳理實現敏感數據發現,將數據庫中的敏感數據進行變形處理,以實現敏感數據防洩漏。
而且,根據操作對象不同,數據脫敏操作通常包括兩種形式,一種是結構化數據脫敏,比如數據庫、數據庫文件等進行靜態和動態脫敏;另一種是非結構化文檔脫敏,比如日常常見的Word、Excel、PowerPoint、TXT等文件進行脫敏。
上述內容闡述了“什麼是敏感數據”,那麼在數據流轉過程中,企業這樣的數據處理者是如何識別敏感數據的呢?
敏感數據識別是要發現系統中的敏感數據。在數據梳理的基礎上,在有限的識別範圍內,通過對敏感數據特徵的分析,提煉出一套敏感數據特徵庫。利用特徵庫快速找出系統中的敏感數據,為後續數據分類分級奠定數據特徵基礎。
目前,敏感數據識別一般有2種途徑:一是敏感數據智能識別,智能敏感數據識別技術主要應用在文本、圖像等非結構化數據類型中;二是人工識別,基於現有技術,通過人工方式識別敏感數據,由數據庫管理員根據個人經驗對敏感數據進行查找和確定。
由於當下的數據大都有容量大,較為複雜的特點,而傳統的利用人工進行梳理的速度較慢,遠遠不如利用機器進行識別效率高,並且同一人在不同時間對同一數據可能有不同的判斷,不同人對相同的數據也有不同的判斷,所以這就會使敏感數據在識別時產生的結果具有差異性。
人工識別敏感數據耗時、耗力、耗資,在人工智能大發展的當下,加之數據洩露和勒索軟件攻擊的數量將持續增長,大多數企業在保護敏感數據時,會選擇智能識別。這使企業能夠主動、大規模識別敏感數據和個人數據。一旦識別了這些數據,企業就可以選擇編輯、刪除、加密或採取任何必要的措施進行保護,以確保數據不會落入“不良人”的手中。
而數據分級分類,則是將識別後的敏感數據進行篩選,根據數據的價值、重要程度分門別類,根據數據使用過程中的敏感程度對數據進行分級,進而為不同級別的數據提供不同程度的安全防護。
其中,數據分類是指企業、組織的數據按照企業數據資產管理形式,對數據進行劃分,這是個系統、複雜工程,更多的是與數據資產管理相關;數據分級則是從數據安全、隱私保護和合規的角度進行分級。
例如,按照客戶信息的敏感程度劃分為極敏感級、敏感級、較敏感級和低敏感級4個等級,並根據分類分級管控原則,確定不同敏感數據的安全管控要求及相應的涉敏人員範圍。
敏感數據的識別與分類分級是數據安全的核心內容,通過對不同類型的數據進行甄別,識別其中存在的敏感數據,並對這些敏感數據進行分類定級處理,從而達到有針對性地對不同類型的數據實現分類保護。
另外,智能敏感識別包括三類智能算法——基於相似度、非監督學習和監督學習:
基於相似度算法可準確檢測以文檔形式存儲的非結構化數據,例如 Word 與 PowerPoint 文件、PDF 文檔、財務、併購文檔,以及其他敏感或專有信息;
基於無監督學習算法,人工無需打標籤,進行特徵設計與提取,比如敏感圖像場景提取目標關鍵點、文檔數據根據語義提取特徵向量;
基於監督學習算法則需收集一定數量的訓練數據(如文檔、圖片),同時對數據進行人工打標籤,如敏感/非敏感標籤(二分類場景)。然後選擇相應的監督學習算法,如支持向量(SVM)、決策樹、隨機森林、神經網絡等,再對訓練數據進行模型訓練與調參。訓練完成,將輸出的模型應用在新的數據進行智能識別與預測,自動化輸出數據類型——敏感/非敏感數據。