首頁>Club>
14
回覆列表
  • 1 # 子更

    很多朋友都是第一次聽說元資料管理系統這個名詞,當然,從事非資料倉庫工作的人,很少會接觸到這個系統

    元資料管理是整個資料倉庫架構中很重要的一塊(關於資料倉庫的架構,請參考這篇文章——資料倉庫的基本架構),但發其實現很多書裡面都沒有對元資料下一個詳細的定義,或者沒有系統地介紹到底資料倉庫的元資料應該包括哪些。下面是整理一些對元資料管理的看法,主要來自Inmon的《資料倉庫》的兩本書、Oracle的文件及個人在資料倉庫的應用中認為應該記錄的一些元資料。

    元資料的定義

      元資料(Meta Data),從字面來看好像無法看出所以然,我當初看到的時候也是,但其實看看對應的英文,含義還是挺明確的,Meta一般是指“對……的解釋或描述”,類似的還有Meta Tag。所以元資料其實就是對資料的解釋和描述,這種解釋可以以多種形式存在,資料庫的資料字典、外部文件,工具的資料檔案庫(Repository)等。

    元資料包括哪些

      這裡主要將資料倉庫的元資料分為3類:資料庫管理系統的資料字典、ETL處理流程產生的日誌、BI建模和分析中工具或文件中記錄的資訊。

    DBMS資料字典

      資料庫管理系統(DBMS)中的元資料一般在所有的資料倉庫都會包含,因為資料倉庫一般都是基於資料庫搭建的,而資料庫本身的管理系統就會自動維護一套資料字典供使用者查詢。這些資訊一般包括:

    資料庫的關係模型,包含的物件及物件的描述;資料庫的表結構、欄位資訊及描述;表和欄位中的主外來鍵、索引、約束等資訊;各物件的儲存位置和操作許可權等。

    ETL處理日誌

      ETL是資料倉庫管理和維護的基礎,就像是資料倉庫的血液維繫著整個資料的新陳代謝。我們需要時刻關注血液的迴圈是否正常,它是保證資料完整性、一致性、準確性和及時性的重要參考依據,所以我們需要記錄ETL任務的處理日誌,我一般會記錄以下幾類資訊:

    任務資訊、呼叫的程式或指令碼、前置任務;資料來源、載入目標、轉化規則或計算公式;資料的重新整理型別、重新整理頻率,任務排程資訊;每次執行的起始時間、結束時間、操作記錄數、任務狀態及出錯資訊。

      記錄ETL資訊的方式有很多,一般我會將上面羅列的資訊分兩類進行記錄,一類是ETL基本資訊與排程資訊,另一類是ETL的每次執行日誌。其實ETL的任務資訊和任務排程一般比較簡單且更新頻率不高,可以以文件或建資料庫表的形式記錄,當有新的ETL任務配置進去時進行手動更新;而ETL的執行日誌一般是當任務執行一次就會記錄一條,反映該次執行的狀態,所以一般每個程式或指令碼每天甚至每小時就會產生一條,建議如果ETL環境在資料庫裡面的話,建立ETL日誌表記錄相對會比較方便,當每次ETL執行時自動地去維護這張表,INSERT一條任務執行的記錄。

    BI分析模型

      這裡的BI分析模型主要有兩類,一類是資料倉庫常見的多維模型,另一類是根據具體業務構建的商業分析模型。無論是哪類模型,其實都已經在分析的層面上,所以都有必要記錄以下幾類資訊:

    分析模型的設計和結構;模型的分析應用和商業價值;模型中指標的定義、計算方法;模型的展現和效果。

      模型一般由分析師設計和構建,所以這類資訊一般會以文件的形式記錄下面,或者製作成相應的PPT進行展示。這裡必須注意的是分析模型在構建之初就必須明確應用的環境、體現的價值或可能實現的預期,明確這些是為了更好地應用到實踐中,如果只是單純為了實現這樣的模型或者基於相應演算法的實現,那麼很有可能最終模型會變成一種擺設;再有一點就是模型的展現,模型需要最佳化其在視覺化層面的效果,也就是要讓其他人能夠更好地理解模型的使用和價值,一切底層的演算法和資料的處理只是為了讓模型在最終的展現上更加有效。

      上面只是對於所有的分析模型而言,對於多維模型,其在資料倉庫的應用已經形成了一定的規範,所以我們可以獲取到更多的資訊:

    多維模型的結構(星形、雪花等);多維模型的維(層次、級別、屬性)和立方(度量、計算度量);多維模型的資料組織和載入;可以實現的OLAP應用與展現。

      其實如果你用工具來構建多維模型,那麼這些多維模型的元資料資訊可能很多直接就會儲存在工具相應的資料檔案庫(Repository)裡面,當然你也可以自己整理出相應的文件,供不時的查詢和分享的需要。

    元資料管理標準

    沒有規矩不成方圓。元資料管理之所以困難,一個很重要的原因就是缺乏統一的標準。在這種情況下,各公司的元資料管理解決方案各不相同。近幾年,隨著元資料聯盟MDC(Meta Data Coalition)的開放資訊模型OIM(Open Information Model)和OMG組織的公共倉庫模型CWM(Common Warehouse Model)標準的逐漸完善,以及MDC和OMG組織的合併,為資料倉庫廠商提供了統一的標準,從而為元資料管理鋪平了道路。

    元資料管理主要有兩種方法:

    對於相對簡單的環境,按照通用的元資料管理標準建立一個集中式的元資料知識庫。對於比較複雜的環境,分別建立各部分的元資料管理系統,形成分散式元資料知識庫,然後,透過建立標準的元資料交換格式,實現元資料的整合管理。

    目前OMG家的CWM(Common Warehouse MetaModel)標準已成為元資料管理界的統一標準:OMG是一個擁有500多會員的國際標準化組織,著名的CORBA標準即出自該組織。公共倉庫元模型(Common Warehouse Metamodel)的主要目的是在異構環境下,幫助不同的資料倉庫工具、平臺和元資料知識庫進行元資料交換。2001年3月,OMG頒佈了CWM 1.0標準。CWM模型既包括元資料儲存,也包括元資料交換,它是基於以下三個工業標準制定的:

    UML:它對CWM模型進行建模。MOF(元物件設施):它是OMG元模型和元資料的儲存標準,提供在異構環境下對元資料知識庫的訪問介面。XMI(XML元資料交換):它可以使元資料以XML檔案流的方式進行交換。

    CWM為資料倉庫和商業智慧(BI)工具之間共享元資料,制定了一整套關於語法和語義的規範。它主要包含以下四個方面的規範:

    CWM元模型(Metamodel):描述資料倉庫系統的模型;CWM XML:CWM元模型的XML表示;CWM DTD:DW/BI共享元資料的交換格式CWM IDL:DW/BI共享元資料的應用程式訪問介面(API)

  • 2 # 城市之說

    元資料(Meta Data),主要記錄資料倉庫中模型的定義、各層級間的對映關係、監控資料倉庫的資料狀態及 ETL 的任務執行狀態。一般會透過元資料資料庫(Metadata Repository)來統一地儲存和管理元資料,其主要目的是使資料倉庫的設計、部署、操作和管理能達成協同和一致。元資料是資料倉庫管理系統的重要組成部分,元資料管理是企業級資料倉庫中的關鍵元件,貫穿了資料倉庫的整個生命週期,使用元資料驅動資料倉庫的開發,使資料倉庫自動化,視覺化。

    構建資料倉庫的主要步驟之一是 ETL。這時元資料將發揮重要的作用,它定義了源資料系統到資料倉庫的對映、資料轉換的規則、資料倉庫的邏輯結構、資料更新的規則、資料匯入歷史記錄以及裝載週期等相關內容。資料抽取和轉換的專家以及資料倉庫管理員正是透過元資料高效地構建資料倉庫。

    使用者在使用資料倉庫時,透過元資料訪問資料,明確資料項的含義以及定製報表。資料倉庫的規模及其複雜性離不開正確的元資料管理,包括增加或移除外部資料來源,改變資料清洗方法,控制出錯的查詢以及安排備份等。

    一、元資料型別

    ​元資料可分為技術元資料、業務元資料和管理過程元資料。

    技術元資料為開發和管理資料倉庫的 IT 人員使用,它描述了與資料倉庫開發、管理和維護相關的資料,包括資料來源資訊、資料轉換描述、資料倉庫模型、資料清洗與更新規則、資料對映和訪問許可權等。

    業務元資料為管理層和業務分析人員服務,從業務角度描述資料,包括商務術語、資料倉庫中有什麼資料、資料的位置和資料的可用性等,幫助業務人員更好地理解資料倉庫中哪些資料是可用的以及如何使用。

    管理過程元資料指描述管理領域相關的概念、關係和規則的資料,主要包括管理流程、人員組織、角色職責等資訊。

    二、元資料功能

    1、血緣分析:向上追溯元資料物件的資料來源。血緣分析可以幫助您輕鬆回答:"我正在檢視的報告資料來源是什麼?"以及"對當前分析的資料應用了哪些轉換處理?"等問題。這樣的機制及對這些問題的回答確保了對所分析的資料更高的信任水平,並有助於實現許多行業(包括醫療、金融、銀行和製造業等)對所呈現資料的特殊監管及合規性要求。

    2、影響分析:向下追溯元資料物件對下游的影響。影響分析可以讓您輕鬆應對變更可能產生的影響,自動識別與其相關的依賴項和潛在的影響還可以跟蹤所有物件及其依賴關係,最後我們還提供資料全生命週期的視覺化顯示。例如,如果您的某一資訊系統中準備將“銷售額”從包含稅費更改為不包括稅費,則SE-DWA將自動顯示所有使用了“銷售金額”欄位,以便您可以確定有哪些工作需要完成,並且建議您在更改前完成該工作。

    3、同步檢查:檢查源表到目標表的資料結構是否發生變更。

    4、指標一致性分析:定期分析指標定義是否和實際情況一致。

    5、實體關聯查詢:事實表與維度表的代理鍵自動關聯

    三、元資料應用

    1、ETL自動化管理:使用元資料資訊自動生成物理模型,ETL程式指令碼,任務依賴關係和排程程式。

    2、資料質量管理:使用資料質量規則元資料進行資料質量測量。資料質量根據設定的規則幫助您過濾出有問題的資料,並智慧分析資料質量缺陷。

    3、資料安全管理:使用元資料資訊進行報表許可權控制。可以方便檢視使用者和訪問許可權,並啟用物件級和行級安全管理。物件級安全性確保透過身份驗證的使用者只能訪問他們被授權檢視的資料、表或列,其它資料則不可見。基於行的安全性會更進一步,可以限制特定的組成員只可以訪問表中特定的資料。

    4、資料標準管理:使用元資料資訊生成標準的維度模型。

    5、資料介面管理:使用元資料資訊進行介面統一管理。多種資料來源接入,並提供多種外掛對接最流行的源系統。應該可以簡單方便獲取資料。

    6、專案文件管理:使用元資料可以自動、方便的生成的健壯全面的專案文件,其以幫助您應對各種對於資料合規性要求。讀取元資料模型,並生成pdf格式的描述檔案。生成文件您檢視每個物件的名稱、設定、描述和程式碼。

    7、資料語義管理:業務使用者在自助服務分析中面臨的挑戰他們不瞭解資料倉庫從而無法正確解釋資料,使用元資料可以語義層建模,使用易於業務使用者理解的描述來轉換資料。

    四、總結

  • 3 # 飛翔的肖恩

    管理主要是更新要及時,資料保證準確,要有一些列保證的制度釋出,元資料更多是制度管理好,才能發揮大作用,否則就是做無用功。

  • 4 # 資料社DataClub

    元資料知多少

    小B作為一名資料分析師,為什麼自己沒能去找到資料呢?

    這就要說下資料倉庫的元資料管理。我們都知道傳統的資料庫中每張表都有註釋,包括表註釋,欄位註釋,你拿到一個不熟悉的表肯定要先看註釋,然後才知道每個欄位的意思。就像你學習英語的時候查那本牛津字典一樣,你能很快查到每個單詞的意思,不久你還能看單詞“猜出”一個單詞的意思。同樣資料倉庫也有這樣一套“註釋”,我們稱之為元資料。

    作為資料分析師,做分析之前,你都要先知道自己需要什麼資料,去哪找到這些資料。沒錯,就是資料倉庫的元資料管理系統。所以,理解資料倉庫,需要從元資料開始。

    資料分析師看的元資料模型說明,模型的業務含義,所屬主題,資料分析師可以透過說明知道模型儲存的是什麼資料模型欄位,模型中每個欄位代表的意思,資料分析師可以瞭解模型中有哪些指標資料和維度資訊模型需求來源,這個模型的需求誰提出來的,還是建模人員自己規劃的,可以幫助資料分析師瞭解模型建立的初衷模型開發者,就像你程式碼一樣,最上面都是author 。資料分析師可以找到對應的模型開發者瞭解一切他想要的資訊。模型儲存資訊,包括分割槽資訊,資料大小資訊,資料波動情況等,資料分析師瞭解後,不至於一個SQL把即席查詢搞死。血緣關係,資料分析師可以瞭解模型裡面欄位的來龍去脈,在出現資料問題時,進行追蹤溯源,找出“始作俑者”。變更記錄,資料分析師後續進行大時間範圍的分析時,方便確定資料的有效可用範圍。比如,20200101變更模型,增加註釋“2020增加欄位a,2020年之前無該欄位資料”。模型開發者看的元資料

    上面的元資料很大意義上是給資料分析師看的,其實還有一部分元資料是給模型開發人員看的。

    模型中欄位的合法值型別、範圍等ETL程式使用的轉換規則UDF(自定義函式)說明ETL報錯程式碼含義……

    模型開發人員除了做好“資料分析師眼中的”元資料,還要管理好“開發的”元資料。

    元資料承擔著資料治理的重任,完整的元資料管理系統是資料倉庫建設成功的根基,也是資料倉庫發揮作用大小的決定項之一。

    最為資料分析師,使用好元資料,可以快速幫助你更快的構建特徵工程。

  • 中秋節和大豐收的關聯?
  • 哪個遮瑕遮黑眼圈最厲害?