首頁>技術>

企業資料目錄(EDC)旨在幫助企業與IT人員透過統一的元資料檢視(包括技術元資料、業務元資料、使用者釋義、關聯關係、資料質量和用途)來釋放企業資料資產的最大能量。

我們從下至上來看下EDC的一個架構,最下面是儲存層,在這一層,EDC包含了傳統的結構化資料庫用來儲存EDC的管理員資料、視覺化配置資料、資料域的規則,runtime統計資料等等,其中一部分結構化資料來自於各接入應用的元資料,稱為模型庫服務(Model Repository Service,MRS)使所有接入的應用可以在一個關係型資料庫中進行協同;另一部分結構化資料稱為資料剖析倉庫(Profiling Warehouse,PWH),用來儲存資料剖析資訊,例如剖析結果和計分卡結果。在儲存層EDC也可以接入各種非結構化資料,例如Hadoop分散式儲存系統以及其上的HBASE等開源產品。

往上一層,對於接入的結構化資料的資料來源,有剖析引擎(Data Profiling Engine)對資料集的唯一性,特徵值頻率以及資料集所屬的資料域進行分析;在另一邊Hadoop社群有自己的分散式引擎系統,例如用來快速將各類元資料載入到HBase的Spark元件,以及支援多條件搜尋並建立實時索引的Solr元件。

所有的資料處理都是為了能提供資料服務,最通用的不外乎搜尋,包括資料間關係、血緣的搜尋,資料域的搜尋。還有就是生成報表作業的管理計劃。除了直接對外提供服務外,這一層還有一些外掛對資料進行進一步加工,例如對跨資料集的資料相似性進行比較的分析器,對資料集進行到資料域的歸集,以及將非結構化元資料匯入到HBase的攝入服務。最終服務層有統一的對外API介面將資料域轉化成資料目錄作為EDC的主體。

EDC支援的分散式Hadoop產品包括Cloudera,Hortonworks以及Azure HDInsight,在Hadoop上,EDC可以部署自己的HBase,Solr以及Spark例項作為Yarn應用。不過市面上的一些EDC產品,例如Informatica有自帶的Hadoop叢集,和自身的HBase,Solr和Spark可以打包部署。

EDC的資料來源通常來自各業務系統、BI系統、資料庫、數倉和資料整合匯流排,經過儲存層的元資料提取及資料剖析在EDC叢集內建立元資料叢集、建立元資料處理框架(內容包括MRS,監控模型庫服務,叢集服務,目錄服務以及內容管理服務)以及資料域建制(Profiling)即資料整合服務。

上圖是EDC服務的架構圖。Profiling伺服器需要連線PWH和透過內容管理服務關聯的參考資料庫(REF)。架構伺服器(Infrastructure Server)需要連線MRS資料庫,其上的EDC服務透過到Spark、HBase和Solr的聯結器對接企業的非結構化資料;透過MRS關聯資料整合服務深入資料湖對接企業的結構化資料。MRS對外提供開發介面可對資料整合方式及作業管理進行客製化,同時透過分析服務對外輸出業務術語表(Business Glossary)。而EDC的對外介面可以給管理員提供對資料域的定義,也可以開放給使用者對業務場景進行客製化。

由於EDC牽涉到全域的資料,對於安全管控也是不可忽視的一環,在EDC中往往會透過Kerberos,即三方驗證的方法對訪問進行許可權控制。

上面這張圖比較複雜,簡單的說即時使用者訪問憑證透過一個第三方機構來保管,以保證驗證的獨立性。

原文連結:https://developer.aliyun.com/article/780361

11
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • Salesforce的敏捷資料開發