作者丨石秀峰
文章共6279個字,建議閱讀需20分鐘
前言:正所謂:“工欲善其事,必先利其器!”,一套好的資料治理工具,能讓企業的資料治理工作事半功倍。資料治理本質是盤點資料資產、治理資料質量,實施資料全生命週期的管理,根據不同的專案特點,會用到不同的技術或工具,一般來說,資料治理產品或工具主要包含以下元件:資料模型管理、元資料管理、資料質量管理、資料標準管理、主資料管理、資料安全管理、資料服務平臺。
資料治理產品中的七個工具或元件,都各有自己的特點和使命,在企業的資料治理中都有著不同的功能側重,但是解決問題的目標是一致的——提升資料質量。這讓我不由聯想到的是那部經典的電影《七劍下天山》,資料治理的七個工具就如同電影中的七把利劍,它們的打造材料、工藝、對使用者的要求都各不相同,在執行任務中需要各盡其職,同時又需要緊密協同。想想看,資料治理中的七個工具,何嘗不是這樣呢?
天瀑劍(資料標準):一把雙頭劍,忽攻忽守,用劍者必須很專一,是一把表現“紀律”的劍。
莫問劍(資料安全):劍身是烏黑的,長兼富彈性,變化無窮,招式變幻難測。心法重劍略,有劍氣,輕易不殺,使用者需智慧與內涵。
游龍劍(元資料):無堅不摧,一劍既出,眾劍稱臣,是最高攻擊的武器。
青幹劍(主資料):奇鈍無比,非極鋒利,可抵擋天下最鋒利的武器,可剋制“游龍”,是最好防守兵器。
競星劍(資料模型):短身,藏於衣服之內,在電光火石之間,出劍神速,迅雷不可目睹。
日月劍(資料質量):兩把相連的子母劍,時而雙劍,時而成一體,攻擊範圍可大可小。
舍神劍(資料服務):是一把開山闢石的大劍。使者攻勢力大無窮,鈍重有力,是一把求生的劍,代表重生,純樸,恆心。
一、競星劍:資料模型管理
資料模型管理工具猶如“競星劍”,短身,藏於衣服之內,在電光火石之間,出劍神速,迅雷不可目睹。在企業資訊化建設過程中,資料模型“藏”於資料庫底層,對業務人員和管理人員是無感的,所以往往被忽視。但是資料模型卻是企業資料治理中最核心的一把利劍。資料模型對上是承載資料業務需求的元資料,對下是資料標準管理的內容,同時,是資料質量指標和規則定義的起點,是主資料和參照資料設計的根本,是資料倉庫和BI的核心,也是資料安全管控的物件。資料模型管理平臺從功能上,主要包括:視覺化建模、模型版本管理、資料模型管理、資料模型查詢、資料模型瀏覽、資料模型分析等。
視覺化建模。提供的視覺化的前臺建模能力,支援企業級資料模型的構建,資料視覺化建模一般支援oracle、MySQL、SQLserver、HIVE、Hbase等資料庫型別,優秀的模型管理平臺支援資料倉庫或業務系統的正向建模,同時支援將企業現有系統資料模型反向採集。
模型版本管理。支援模型變更和版本的管理,支援版本的回溯,版本明細資訊查詢。
資料模型查詢。支援資料模型查詢,透過輸入關鍵字可以查詢到指定的資料模型。
資料模型瀏覽。支援資料模型全景檢視,能夠直觀看到企業資料的分佈地圖,並支援透過模型下鑽功能進行模型的逐級查詢,直到查詢的模型的最深層級的元資料。
資料模型分析。主要提供模型的對比分析功能,這種對比分析可以是兩個不同模型之間也可以是統一模型的不同版本之間的對比分析。透過模型的對比分析,能夠輕鬆找到模型之間的差異,支援由模型驅動的影響分析。
二、游龍劍:元資料管理
元資料管理工具猶如“游龍劍”,一劍既出,眾劍稱臣。元資料管理統一管控分佈在企業各個角落的資料資源,企業涉及的業務元資料、技術元資料、管理元資料都是其管理的範疇,按照科學、有效的機制對元資料進行管理,並面向開發人員、終端使用者提供元資料服務,以滿足使用者的業務需求,對企業業務系統和資料分析平臺的開發、維護過程提供支援。元資料管理是企業資料治理的基礎,把它比作“游龍劍”並不為過。
元資料管理平臺從功能上,主要包括:元資料採集服務,應用開發支援服務,元資料訪問服務、元資料管理服務和元資料分析服務。
請參考:《資料治理系列2:元資料管理【深度解析】》
元資料採集服務。元資料採集服務提供各類介面卡滿足以上各類元資料的採集,並將元資料整合處理後統一儲存於中央元資料倉庫,實現元資料的統一管理。這個過程中,資料採集介面卡十分重要,元資料採集要能夠適配各種DB、各類ETL、各類DW和Report產品,同時還需要適配各類結構化或半結構化資料來源。
元資料管理服務。市場上主流的元資料管理產品,基本都包括元資料查詢、元模型管理、元資料維護、元資料版本管理、元資料對比分析、元資料介面卡、元資料同步管理、元資料生命週期管理等功能。
元資料訪問服務。元資料訪問服務是元資料管理軟體提供的元資料訪問的介面服務,一般支援REST或Webservice等介面協議。透過元資料訪問服務支援企業元資料的共享,是企業資料治理的基礎。
元資料分析服務。
血緣分析:告訴你資料來自哪裡,都經過了哪些加工。
影響分析:告訴你資料都去了哪裡,經過了哪些加工。
冷熱度分析:告訴你哪些資料是企業常用資料,哪些資料屬於僵死資料。
關聯度分析:告訴你資料和其他資料的關係以及它們的關係是怎樣建立的。
資料資產地圖:告訴你有哪些資料,在哪裡可以找到這些資料,能用這些資料幹什麼。
三、日月劍:資料質量管理
資料質量管理工具猶如“日月劍”,是兩把相連的子母劍,時而雙劍,時而成一體,攻擊範圍可大可小。資料質量管理工具在不同的資料治理專案中有時會被單獨使用,有時配合元資料使用、有時又與主資料搭檔。在管理範圍上,往往會根據專案的需求、客戶的目標進行控制,可以是企業級的全域資料質量管理,也可以針對某一特定業務領域進行資料質量管理的實施。
資料質量管理工具從功能上,主要包括:資料質量指標管理、資料質量規則管理、資料質量評估任務、資料質量評估報告。
請參考:《資料治理系列5:資料質量管理的正確開啟方式》
資料質量指標管理。透過對不同業務規則的收集、分類、抽象和概括,定義資料質量維度,這裡給出了六種,分別是:資料唯一性、資料一致性、資料準確性、資料關聯性、資料完整性、資料及時性。質量指標反映了資料質量不同的規格標準,也體現了高層次的指標度量的特點。
資料治理規則管理。一個數據質量規則包含了資料的評估物件,評估指標、權重和期望值等。質量規則是由業務人員根據各檢核類別對不同的業務實體提出的資料質量的衡量標準。它是各檢核類別在不同業務實體上的具體體現。
資料質量檢核任務。檢核任務排程模組是資料質量平臺的核心,透過執行檢核方法生成相應的檢核結果問題資料檔案,檢核結果問題資料能夠反映出使用者所關心的資料質量問題。
資料質量分析報告。資料質量報告提供了一個集中展示資料質量狀況的視窗,相關人員可以對資料質量問題進行查詢、統計、分析,找到引起資料質量問題的根因,並付諸行動,從源頭上解決資料質量的根本問題,實現資料質量的閉環。
四、天瀑劍:資料標準管理
資料標準管理工具猶如“天瀑劍”,是一把雙頭劍,用劍者必須很專一,是一把表現“紀律”的劍。資料標準從字面上理解就是資料既定的“規則”,這個規則一旦定義,就需要必須執行。資料標準化就是研究、制定和推廣應用統一的資料分類分級、記錄格式及轉換、編碼等技術標準的過程。從管理的物件上來看,資料標準主要包含三個方面的標準:資料模型標準、即元資料的標準化;主資料和參照資料標準;指標資料標準,如指標的統計維度、計算方式、分析規則等。資料標準管理工具,從功能層面主要包括:資料標準編制、資料標準審批、資料標準釋出、資料標準使用。
請參考《資料治理系列3:資料標準管理》
資料標準審查。對資料標準初稿進行審查,判斷資料標準是否符合企業的應用和管理需求,是否符合企業資料戰略要求
資料標準釋出。資料標準一經發布各部門、各業務系統都需要按相應的標準進行執行,對於遺留系統會存在一定的風險。標準釋出的過程需要對現有應用系統、資料模型的影響進行評估,並做好相應的應對策略。
資料標準貫徹。把已定義的資料標準與業務系統、應用和服務進行對映,標明標準和現狀的關係以及可能影響到的應用。該過程中,對於企業新建的系統應當直接應用定義好的資料標準,對於舊系統應對一般建議建了相應的資料對映關係,進行資料轉換,逐步進行資料標準的落地。
五、青幹劍:主資料管理
主資料管理工具猶如“青幹劍”,奇鈍無比,非常鋒利,是最好防守兵器。主資料是企業最基礎、最核心的資料,企業的一切業務基本都是基於主資料來開展的,是企業最重要的資料資產。如果大資料是一座礦山,主資料就是那礦山中的金子,透過主資料的解決各異構系統的資料不標準、不一致問題,保障業務連貫性和資料的一致性、完整性和準確性,提升業務線條之間的協同能力,同時,高質量的主資料也為領導的管理決策提供了支撐。所以,主資料管理也是企業資料治理成為最核心部分。
主資料管理平臺從功能上主要包括:主資料模型、主資料編碼、主資料管理、主資料清洗、主資料質量、主資料整合等。
對於如何建設主資料請參考《資料治理系列4:主資料管理四部曲》
主資料模型。提供主資料的建模功能,管理主資料的邏輯模型和物理模型以及各類主資料模板。
主資料編碼。編碼功能是主資料產品的初級形態,也是主資料產品的核心能力,支援各種形式主資料的編碼,提供資料編碼申請、審批、整合等服務。
主資料管理。主要提供主資料的增刪改查功能。
主資料清洗。主要包括主資料的採集、轉換、清理、裝載等功能。
主資料質量。主要提供主資料質量從質量問題發現到質量問題處理的閉環管理功能。
主資料整合。主要提供主資料採集和分發服務,完成與企業其他異構系統的對接。當然,談到整合就不得不說的一個重要工具,ESB(企業服務匯流排),這個工具也是經常會與主資料產品進行配合在實現企業主資料治理的同時,解決企業異構系統的整合問題。關於資料整合我們下次單獨再談,此處不再贅述。
六、莫問劍:資料安全管理
資料安全管理工具猶如“莫問劍”劍身是烏黑的,長兼富彈性,招式變幻難測,重劍略,有劍氣,輕易不殺,使用者需智慧與內涵。資料安全規則會隨著不同行業、不同企業的需求不同而變換莫測,資料安全一般企業作為資料戰略的重要組成。“莫問劍”長兼富彈性,帶有劍氣,不易操作,需要使用者的智慧與內涵。資料安全也一樣,在企業資料治理中,資料安全一般作為是企業資料治理的一道“紅線”,任何人、任何資料不可逾越。但是資料安全也不能隨意、輕易地使用,否則就會影響業務效率,安全和效率之間需要找到一個平衡點。
資料安全涵蓋了作業系統安全、網路安全、資料庫安全、軟體應用安全等。對於資料的安全治理,側重點是對於資料使用過程的控制,使得資料安全合法的進行使用,所以管控的重點是在應用上。從應用上,資料安全的主要功能包括:身份認證與訪問控制、資料合規性申請、資料分級與授權、資料脫敏/脫敏、資料加密、安全審計等。
身份認證與訪問控制。身份認證是為訪問控制提供支撐,訪問控制提供了不同身份使用者訪問不同資訊資源提供了相應的安全策略。身份認證是在計算機及計算機網路系統中確認操作者身份的過程,確定使用者是否具有對某種資源的訪問和使用許可權,防止攻擊者假冒合法使用者獲得資源的訪問許可權,保證系統和資料的安全。常用身份認證的技術包括:電子簽名(CA)、USB-key(智慧卡)、靜態口令,動態口令、簡訊密碼、人臉識別、指紋識別、虹膜識別、聲音識別等。
資料合規性申請。對於企業關鍵資訊的建立和變更需要符合企業相關的資料管理流程,建立資料申請、審批制度,對新增的資料或變更的資料進行合法性審批。
資料脫敏。簡單的資料脫敏技術就是給資料打個“馬賽克”,脫敏的過程資料的含義保持不變、資料型別不變、資料的關係不變。
資料加密。資料加密技術是資料防竊取的一種安全防治技術,指將一個資訊經過加金鑰匙及加密函式轉換,變成無意義的密文,而接收方則將此密文經過解密函式、解金鑰匙還原成明文。
安全審計。資料安全審計是透過記錄使用者對資料的所有訪問和操作記錄日誌,並透過日誌的分類統計和分析,提供資料訪問報表,支援對資料的檢索和分析,支援對使用者的違規訪問和危險操作進行告警。
七、舍神劍:資料服務平臺
資料服務平臺猶如“捨身劍”:是一把開山闢石的大劍,鈍重有力,是一把求生的劍,代表重生,純樸,恆心。資料服務平臺是資料治理的能力輸出平臺,持續的資料服務能力輸出,披荊斬棘,為前端的資料分析和資料應用提供支撐。資料服務平臺在網際網路架構下一般會基於統一的API閘道器進行服務的統一接入,由統一閘道器對所有資料服務進行排程、管理、編排、適配,應適應企業內部的資料共享和企業外部的資料開放等需求。
資料服務平臺主要包括服務能力輸出和統一閘道器服務兩大部分,一部分是輸出資料服務能力,另一部分是透過統一的閘道器來管理這些能力。
能力輸出。資料治理平臺的主要輸出的資料服務能力包括:資料查詢服務、資源目錄服務、主資料服務、資料標準查詢服務、資料安全服務等,每一類資料服務都是由一組服務介面組成的。資料服務能力也可以根據業務主題進行組織,形成主題服務。資料服務的量和質量也是考驗一個數據治理專案實施的一項重要指標。
服務閘道器。嚴格意義上來說,服務閘道器也是一套獨立的工具,核心功能包括:服務的編排、註冊接入、流程控制、協議適配、安全防護等。傳統架構中一般會以ESB——企業服務匯流排,作為服務閘道器來使用。在網際網路架構下,ESB這種中心化的架構對應高併發的前臺應用無法支撐,所以目前一般採用API閘道器,即API Gateway技術來替代傳統的ESB。API閘道器提供日誌、安全、流量控制、熔斷、負載均衡、鑑權等功能外掛。這些外掛會隨著企業業務應用規模等的變化進行不斷的強化與調整,而不用頻繁對閘道器層進行改動,確保閘道器層的穩定性。
八、傳說中七劍合璧就能召喚神龍
在一個大型的資料治理專案中,不是一項技術或工具就能搞定的,需要根據企業的需求採用不同產品和工具的組合。而當我們將以上企業資料治理的七把利劍的相關核心能力組合起來以後,就形成了一個完整的資料治理平臺,而這個資料治理平臺與當前流行的“資料中臺”不謀而合。這裡,我們並不是因為資料中臺的概念火,就將資料治理往中臺靠,而事實上,任何一個數據中臺,都離不開資料治理的各項能力。一個完整的資料中臺重點提供了資料的“採、管、存、用”四種能力,而資料治理工具就是提供了最核心的“管”資料的能力和一部分“採、存、用”資料的能力。
注:關於資料中臺的話題,不斷更新中……
1、《熱的發燙的「中臺」是什麼?》2、《資料中臺“熱”下的“冷思考”》九、寫在最後
資料治理的各個工具在企業資料治理過程中各司其職,發揮著不同的作用,當然,除了筆者以上列出的七個產品,在不同的專案可能還會用到企業的資料治理工具或技術,這裡就不在一一羅列了。一個企業的資料治理專案的成功實施和持續見效,產品和工具很重要,但絕對不能以工具論。高瞻遠矚的資料戰略,先進的資料治理架構,資料治理時機的把握,資料治理組織、文化和制度的保障以及建立長效的運營機制缺一不可!而技術與工具只是支撐企業資料戰略、資料標準落地的工具而已。