意見,為什麼我們需要重新考慮元資料管理和資料治理的方法
> Image courtesy of Andrey_Kuzmin on Shutterstock
隨著公司越來越多地利用資料為數字產品提供動力,推動決策制定並推動創新,瞭解這些最關鍵資產的健康狀況和可靠性至關重要。數十年來,組織一直依靠資料目錄來支援資料治理。但是夠了嗎?
這不是什麼秘密:知道您的資料在哪裡以及誰可以訪問它是瞭解資料對您的業務影響的基礎。實際上,在構建成功的資料平臺時,至關重要的是您的資料既要有條理又要集中化,同時又要易於發現。
類似於物理圖書館目錄,資料目錄用作元資料清單,併為使用者提供評估資料可訪問性,健康狀況和位置所必需的資訊。在我們自助服務商務智慧時代,資料目錄也已成為一種強大的資料管理和資料治理工具。
毫不奇怪,對於大多數資料領導者來說,他們的首要任務之一就是建立資料目錄。
資料目錄至少應回答:
· 我應該在哪裡尋找資料?
· 這個資料重要嗎?
· 這些資料代表什麼?
· 這些資料相關且重要嗎?
· 如何使用這些資料?
但是,隨著資料操作的成熟和資料管道的日益複雜,傳統的資料目錄通常無法滿足這些要求。
這就是一些最佳的資料工程團隊正在創新其元資料管理方法的原因,以及他們正在做什麼:
資料目錄不足之處儘管資料目錄具有記錄資料的能力,但允許使用者"發現"並收集有意義,實時的資料健康狀況的基本挑戰在很大程度上仍未解決。
我們所知道的資料目錄由於以下三個主要原因而無法跟上這一新現實:(1)缺乏自動化;(2)無法隨著資料堆疊的增長和多樣性進行擴充套件;以及(3)它們的未分散式格式。
自動化需求增加傳統的資料目錄和治理方法通常依靠資料團隊來繁重的手工資料錄入,使他們負責隨著資料資產的發展而更新目錄。這種方法不僅耗時,而且需要大量的人工操作,否則這些操作可能會自動執行,從而為資料工程師和分析人員騰出時間來專注於真正推動工作的專案。
作為資料專業人員,瞭解資料狀態是一場持續的戰鬥,這表明需要更大,更自定義的自動化。也許這種情況敲響了警鐘:
在利益相關者會議之前,您是否經常發現自己狂熱地查詢Slack渠道以弄清楚哪些資料集為您正在使用的特定報告或模型提供了反饋?為什麼實際上這些資料在上週停止到達?為了解決這個問題,您和您的團隊是否擠在一個房間裡,並開始將上游和下游的所有各種連線都白板化,以獲取特定的關鍵報告?
我將為您保留詳細資訊,但看起來可能像這樣:
> Does your data lineage look like a storm of lines and arrows? That makes two (hundred) of us. Image courtesy of EgudinKa on Shutterstock.
如果到家了,您並不孤單。許多需要解決此依賴性拼圖遊戲的公司開始了一項多年過程,以手動繪製其所有資料資產。有些人可以投入資源來建立短期駭客,甚至可以使用內部工具來搜尋和瀏覽資料。即使達到最終目標,這也會給資料組織帶來沉重負擔,使您的資料工程團隊花費時間和金錢,而這些時間和金錢本來可以花在其他方面,例如產品開發或實際使用資料。
隨資料變化而擴充套件的能力資料目錄的結構合理,但到2020年,情況並非總是如此。隨著機器生成的資料的增加以及公司對ML計劃的投資,非結構化資料變得越來越普遍,佔所有新資料生成量的90%以上。
非結構化資料通常儲存在資料湖中,沒有預定義的模型,必須經過多次轉換才能使用和使用。非結構化資料非常動態,其形狀,源和含義在處理過程的各個階段(包括轉換,建模和聚合)時總是在變化。我們對這種非結構化資料(即對其進行轉換,建模,聚合和視覺化)的處理,使在"所需狀態"下進行分類變得更加困難。
最重要的是,不僅僅是簡單地描述消費者訪問和使用的資料,還越來越需要根據其意圖和目的來理解資料。資料生產者如何描述資產與該資料的消費者如何理解其功能非常不同,甚至在一個數據消費者與另一個數據消費者之間,在理解歸因於資料的含義方面也可能存在巨大差異。
例如,從Salesforce提取的資料集對資料工程師的意義與對銷售團隊人員的意義完全不同。儘管工程師會理解" DW_7_V3"的含義,但銷售團隊會抓緊頭腦,試圖確定所述資料集是否與他們在Salesforce中的"收入預測2021"儀表板相關。而這樣的例子不勝列舉。
靜態資料描述受性質的限制。在2021年,我們必須接受並適應這些不斷髮展的新動態,才能真正理解資料。
資料已分發;目錄不是儘管現代資料體系結構的分佈(請參閱:資料網格)並且已將半結構化和非結構化資料作為標準,但大多數資料目錄仍將資料視為一維實體。隨著資料的聚合和轉換,它流經資料堆疊的不同元素,幾乎無法進行記錄。
> Traditional data catalogs manage metadata (data about your data) at the ingest state, but data is constantly changing, making it hard to understand the health of your data as it evolves in the pipeline. Image courtesy of Barr Moses.
如今,資料趨向於自我描述,在單個程式包中既包含資料又包含描述該資料的格式和含義的元資料。
現代資料目錄需要在這些域中聯合資料的含義。資料團隊需要能夠理解這些資料域如何相互關聯以及聚合檢視的哪些方面很重要。他們需要一種集中的方式來整體上回答這些分散式問題,換句話說,就是分散式的聯合資料目錄。
從一開始就投資正確的方法來構建資料目錄將使您能夠構建更好的資料平臺,從而幫助您的團隊民主化並輕鬆瀏覽資料,使您能夠密切關注重要的資料資產並充分利用它們的全部潛力。
資料目錄2.0 =資料發現當您擁有嚴格的模型時,資料目錄會很好地工作,但是隨著資料管道變得越來越複雜,並且非結構化資料成為黃金標準,我們對資料的理解(其用途,用途,使用方式等)並不能反映現實。。
我們相信,下一代目錄將具有學習,理解和推斷資料的能力,從而使使用者能夠以自助方式利用其洞察力。但是我們如何到達那裡?
> Data discovery can replace the modern data catalog by providing distributed, real-time insights about data across different domains, all while abiding by a central set of governance standards. Image courtesy of Barr Moses.
除了對資料進行分類之外,元資料和資料管理策略還必須結合資料發現,這是一種實時瞭解分散式資料資產執行狀況的新方法。扎卡德·德加尼(Zhamak Deghani)和Thoughtworks的資料網格模型提出的分散式面向領域的體系結構借鑑了資料發現的觀點,即不同的資料所有者應對其資料產品負責,並促進不同位置的分散式資料之間的通訊。將資料提供給給定域並由給定域轉換後,域資料所有者就可以利用資料滿足其運營或分析需求。
資料發現透過根據一組特定使用者對資料的攝取,儲存,聚合和使用方式,提供對特定領域的動態瞭解,從而取代了對資料目錄的需求。與資料目錄一樣,治理標準和工具跨這些域聯合(允許更大的可訪問性和互操作性),但與資料目錄不同,資料發現可以實時瞭解資料的當前狀態,而不是理想狀態或"分類"狀態。
資料發現不僅可以針對資料的理想狀態,還可以針對每個域的資料當前狀態回答以下問題:
· 最近的資料集是什麼?哪些資料集可以棄用?
· 該表上次更新時間是什麼時候?
· 我的域中給定欄位的含義是什麼?
· 誰有權訪問這些資料?上次使用該資料是什麼時候?由誰?
· 此資料的上游和下游依賴性是什麼?
· 這是生產質量資料嗎?
· 哪些資料對我的域的業務需求很重要?
· 我對這些資料的假設是什麼?
我們認為,下一代資料目錄(即資料發現)將具有以下功能:
自助服務發現和自動化資料團隊應該能夠在沒有專門的支援團隊的情況下輕鬆利用其資料目錄。資料工具的自助服務,自動化和工作流程編排消除了資料管道各個階段之間以及過程中的孤島,使人們更容易理解和訪問資料。更高的可訪問性自然會導致更多的資料採用,從而減輕資料工程團隊的負擔。
隨著資料發展的可伸縮性隨著公司攝取越來越多的資料,並且非結構化資料已成為常態,進行擴充套件以滿足這些需求的能力對於資料計劃的成功至關重要。資料發現利用機器學習來擴充套件您的資料資產的規模,從而確保您的理解隨著資料的發展而適應。這樣,資料使用者就可以做出更明智,更明智的決策,而不必依賴於過時的文件(也就是有關陳舊的資料,元資料!)或更糟糕的基於腸道的決策。
分散式發現的資料沿襲資料發現在很大程度上依賴於自動錶和欄位級譜系來對映資料資產之間的上游和下游依賴性。沿襲有助於在正確的時間顯示正確的資訊(資料發現的核心功能)並繪製資料資產之間的連線,因此您可以更好地解決資料管道何時中斷的問題,隨著現代資料堆疊不斷髮展以適應這種情況,這已成為越來越普遍的問題更復雜的用例。
資料可靠性始終確保資料的黃金標準事實是,您的團隊可能已經在某種程度上投資了資料發現。無論是透過團隊的手工工作來驗證資料,工程師正在編寫的自定義驗證規則,還是僅僅是由於資料損壞或無人注意的錯誤所引起的決策成本。現代資料團隊已開始利用自動化方法來確保在管道的每個階段都獲得高度可信賴的資料,從資料質量監視到更健壯的端到端資料可觀察性平臺,該平臺可監視和警告資料管道中的問題。當資料中斷時,此類解決方案會通知您,以便您快速找出根本原因,以快速解決問題並防止將來的停機。
資料發現使資料團隊能夠相信自己對資料的假設與現實相符,從而可以在整個資料基礎架構中不受域限制地實現動態發現和高度的可靠性。
下一步是什麼?如果壞資料比沒有資料更糟糕,那麼沒有資料發現的資料目錄比根本沒有資料目錄更糟糕。為了獲得真正可發現的資料,重要的是,您的資料不僅要"編錄",而且要準確,整潔並完全可觀察到攝取,即可靠。
強大的資料發現方法依賴於自動化和可擴充套件的資料管理,該管理可與資料系統的新分佈特性一起使用。因此,要在組織中真正實現資料發現,我們需要重新考慮如何處理資料目錄。
只有瞭解您的資料,資料的狀態以及如何使用它們(在生命週期的各個階段,跨域),我們才能開始信任它。
想更多地瞭解構建更好的資料目錄嗎?與Debashis Saha或Barr Moses以及蒙特卡洛團隊聯絡。