實踐之前先搞清概念,先看看三者的含義後想必答案也慢慢形成,不辨也明。
先簡單說明一下,主資料是解決一定範圍內對某個物件共識,就像秦始皇統一文字度量衡一樣,天津人管西紅柿叫火柿子,西紅柿就是主資料,相對的還有參考資料,感覺更像程式設計中的列舉,這個列舉也是標準化的,它們可以作為數倉的維度。
數倉主要是用於儲存應用系統的交易型或事務型的資料。把資料放入數倉主要是為了在企業層面進行資料分析,以前主要是結構化資料,資料進入前要經過ETL,資料分析或資料探勘的結果基本都是以報表呈現給高階使用者的。不過它也在進化,逐漸在演變為資料湖,開始對資料劃分週期,相容非結構化資料,ETL也在變為ELT,分析的應用場景更廣闊了。
資料中臺,個人理解更貼近業務,以前都是業務決定資料,但是隨著技術進步,發現數據反過來可以影響業務決策,改進業務,創新業務,為了實現複用,逐漸沉澱成資料中臺。個人理解資料中臺更像是原來數倉的資料集市與資訊市場,只不過不再是僅未中高層提供報表,而是近實時的提供資料服務。
一、主資料是什麼?多年前,當我們開始“玩主資料”的時候,客戶領導擔心業務部門不能正確理解,把它稱為“公共資料”——這個名稱雖不夠準確,卻為普及主資料和主資料管理奠定了良好的基礎。不知啥時候開始,主資料好像又成了熱門詞彙,主資料專案層出不窮。這當然並不奇怪,時代發展到今天,資料驅動業務不再是空話,當資料“司機”發現企業“這輛車”四處漏油、零件叮噹作響時,你肯定不能任由“這輛車罷工”而坐視不管。
舉個主資料質量低劣造成的典型場景:
集團公司希望統籌全集團的“人財物”,集中採購就成為重要抓手。但是流程梳理整合了,SRM系統上線了,集中採購卻“跑”不起來。各家下屬企業各說各話、雞同鴨講,集團難以透過SRM統一全集團的物資採購。其中的核心原因,就是主資料。如果該集團提前規劃,將“人財物”這類高頻使用的業務資料納入集團主資料範疇,就是另一種結局了。
從企業運營或業務流程的角度來說,主資料通常表示可交易的實體。以從訂單到收款的流程為例,客戶使用某種資產(如自助終端)在某個零售店的位置購買公司的產品,其中客戶、產品、位置、資產都是主資料,銷售記錄中的賬戶、在零售店工作的員工也是主資料。儲存主資料的系統一般不記錄交易資訊,但它們應保持一致的實體資訊,確保業務流程能夠正常運轉。
一個好用的主資料管理系統,應具備將實施服務成果落地的能力,並滿足客戶不僅僅是技術層面的需求,因此應像億信華辰EsMDM主資料管理平臺一樣,實現以下價值:
1、實現主資料統一管理,統一標準規範,各司其職;
2、滿足主資料業務需求,可根據業務需要靈活定義模型及業務流程;
3、保障主資料高質量,及時發現、修復質量問題,為各類應用場景提供唯一、準確、權威的主資料支撐;
4、構建主資料高效共享,多種分發方式自主選擇,直接使用;
5、降低主資料管理成本,快速識別、全介面管理,資料自動流轉減少運維壓力;
6、提升企業運營效率,一體化主資料管控,一次錄入,多方受用
同時,我們在建設主資料系統的時候,不能只糾結於某個功能點,更應構建起一個完善的功能架構。
△圖為億信EsMDM主資料管理平臺架構
https://www.esensoft.com/data-governance.htmlwww.esensoft.com
二、資料倉庫是什麼?1)數倉的歷史我們首先簡單看下數倉的歷史由來。在IT行業剛開始起步時,企業中最先考慮的是建設各類應用系統來滿足業務開展,這個時候需要一種專門的工具來儲存業務資料,由此就展開了關於業務資料如何儲存的理論研究和實踐,最終關係型資料庫系統誕生,正規化模型也成為了業務系統的主要資料儲存模型。
後來,企業逐漸有了資料分析的需求,雖然業務系統的正規化模型也能滿足一部分的分析需求,但是存在很多的缺陷,比如表關聯複雜、查詢效率低、一些需求需要跨系統取數等等,於是人們轉而尋找更合適的資料模型來滿足分析型應用的需求,在研究發展過程中,數倉的概念就誕生了。
那麼我們先看一下數倉是什麼?
2)數倉的構成數倉是什麼呢?從字面上來看,其實就是存放資料的倉庫,這些資料怎麼存,存什麼樣的格式,怎麼取怎麼用,這個就需要一套體系去組織和管理,這整套體系就形成了數倉的一系列理論。
那它和資料庫有什麼區別?資料庫負責組織儲存資料,儲存的載體就是我們熟悉的各種資料庫表,它不太管你表是怎麼組織的,有什麼欄位,你給他什麼樣的表它就給你存什麼樣。資料倉庫就是使用資料庫來存資料倉庫裡的表模型和資料,可以說,資料倉庫本質上是一種特殊的資料組織形式,是一種特殊的資料庫。
對數倉有個基本的認識後,我們就來看看數倉涉及到哪些理論需要我們去掌握和學習吧!
首先,數倉中的模型如何設計?需要我們掌握建模理論,目前有兩種主流的數倉建模方式,一種是正規化建模方法,一種是維度建模方法。在實際專案中,這兩種都有使用,但是維度建模會更多一些,更多的實際情況是兩種建模方式結合使用。
數倉建模需要遵循一些基本的設計原則,像一致性維度、一致性事實、匯流排架構等。學習多維建模,必須理解和掌握的基礎概念還包括各種維度表比如單級維、層級維、緩慢變化維等,各種事實表,事務粒度事實表、週期快照表、累計快照表、度量和指標的概念,各類模型如星型模型、雪花模型等。
透過這些建模方法我們可以建立很多的模型,那麼怎麼管理這些模型呢?這就需要在架構上做分層,透過將不同作用的表放在不同的分層上進行組織和分類,讓數倉中的模型更容易被管理。一般數倉中分層包括ODS層(貼源層)、整合層、彙總層、集市層等,有些企業可能分層會分的更細一些,但是總體分層思路大體是相同的。這裡理論基本在網上都被大家分析的很透徹了,大家可以搜尋資料學習。
上面所講的基本是模型層面的一些理論,除了建模,數倉還有個比較重要的工作是就是為這些模型填充資料,這就要用到ETL了。ETL就是把資料從源系統中抽取出來,透過各種加工和資料處理,從而形成我們模型所需的資料灌到模型表中。做ETL需要掌握一些技術知識,比如資料庫基本概念、SQL、ETL工具、作業系統相關知識等。
數倉建設過程中需要一些產出文件,一些比較重要的文件如資料來源分析文件、需求文件、模型設計文件、ETLMAPPING文件、運維文件等。
最後總結一下,如果想要入門數倉的話,一個學習路線是,學習數倉建模各種理論,不求能深入理解,至少有基本認識,然後加入到實際專案中,結合理論去學習專案中的模型,同時也要加強各種技術能力的學習。
最後的最後,推薦一款數倉工具-億信資料工廠系統EsDataFactory,集建模和ETL於一體,內建經典的數倉分層理念和豐富的資料處理元件,同時結合十多年的數倉實施經驗,開發了批次建模、ETL快捷建模等多種建模方式,有效提升開發效率,更貼近實際數倉建設場景,可以快速幫助企業搭建數倉模型,完成 ETL敏捷開發。
資料交換平臺,資料工廠系統,資料共享平臺-億信華辰軟體www.esensoft.com
三、資料中臺是什麼?“中臺”早期是由美軍的作戰體系演化而來的,使用“中臺”這種作戰體系,目的就在於給予前方高效、靈活和強大炮火支援。2015年,阿里巴巴率先提出了“中臺戰略”,以及其有名的“大中臺、小前臺”的機制。2018年8月,阿里釋出“雙中臺+ET”數字化轉型方法論,阿里的雙中臺包括了資料中臺和業務中臺。
在阿里中臺概念的引領下,很多企業也提出了自己的“中臺戰略”。如把內部一些通用性技術平臺、支撐系統打包在一起,稱之為技術中臺;把一些大的業務服務系統,邏輯上集中起來稱之為業務中臺;或乾脆把現有的資料倉庫、資料治理平臺、資料運維平臺整合稱之為資料中臺;還有一種更簡單的方式,就是把以前內部IT支撐系統的後臺直接改名,與資料相關的部分就叫資料中臺,與業務耦合度較緊密的就叫業務中臺。
當下,人人都在談論數字化轉型,但怎麼轉,做什麼,中臺有可能成為企業推進數字化轉型的有效方法之一。
我們先來看下網易嚴選的資料體系(下圖),就更清楚資料中臺的定位了。
資料中臺的下層是資料平臺,資料平臺主要解決跟業務無關的問題,主要是大資料的儲存和計算問題。資料中臺的上層就是資料前臺,主要包括 BI 報表、資料產品和業務系統。資料中臺首先賦能分析師透過 BI 報表的形式來驅動業務精細化運營。可以看到,資料中臺的主要作用在於將企業內部所有資料統一處理形成標準化資料,挖掘出對企業最有價值的資料,構建企業資料資產庫,對內對外提供一致的、高可用大資料服務。下面重點來看看億信華辰根據多年大資料經驗的累積及資料中臺的專案實踐總結出來的資料中臺技術架構,主要分為以下5個部分:
1)資料匯聚
資料中臺不產生資料,資料其實來源於各個業務系統、資料庫、網路環境等,是日常操作所產生的資料,多數儲存在網路環境和儲存平臺中,且各個系統之間獨立存在,很難直接使用,需要去進行資料抽取、採集、整合和處理,將異構資料採集到統一的平臺進行儲存,進而透過建模將資料進行加工處理,變為對業務有用的資料,只有這樣才能有效匯聚資料,形成資料中臺的統一資料資源。
2)資料儲存計算
將採集補錄、抽取整合的業務資料匯聚後,以資料形態儲存,當下大資料發展的節奏讓資料庫技術也由傳統關係型數倉架構,向Hadoop分散式架構演變,並隨著業務實時性決策需要,推動融合MPP、SQL on Hadoop、流處理等大資料技術服務的實時流式計算儲存應用,實現海量資料高效統一管理,為企業提供實時資料支撐。
3)資料治理
資料平臺建好後,業務資料可能雜亂無章,資料質量低,需要經過一系列的治理提高資料質量,將資料統一起來進行管控,這個過程中就包括資料模型管理、資料標準管理、元資料管理、資料質量管理、生命週期管理、資料安全管理。
資料模型管理是根據業務對資料進行分層、整合處理,方便資料的分析應用;元資料管理方便技術人員進行分析資料來龍去脈以及對資料庫底層資料質量進行把控;資料標準用來指定一系列標準,對元資料進行標準的檢查;資料質量是根據一系列規則,對庫表資料進行校驗和整改;資料生命週期和安全貫穿整個流程,為資料保駕護航。
4)資料資產管理
經過資料匯聚、資料治理,已經形成的資料資源需要有統一的地方去進行管理,方便業務人員理解資料,這時就需要建立資料資產管理體系,需要先根據業務先形成資產目錄,資料擁有者將自己的資料資產掛到對應的類目樹,梳理成一套完整的資產目錄,將資料資產開放出去,展示給業務人員或外部人員,提供企業的資料意識。
5)資料服務
經過前期一系列梳理工作,資料還沒有真正發揮它的價值,而資料服務則是將資料資產轉化成一種服務能力,那麼如果我們需要呼叫某個資料資產要怎麼操作使用?資料提供方又如何將資料資產提供給別人使用?這就是我們說的資料服務功能,幫助使用者實現資料規劃諮詢,資料資產服務開放及資料視覺化展示應用等。
資料中臺是一個運營迭代的過程,透過業務閉環不斷完善,使業務的場景化應用效果越來越好,最終達到資料業務價值的最大化。