回覆列表
-
1 # 種豆大叔
-
2 # 兔七哥
資料倉庫,英文名稱為Data Warehouse,可簡寫為DW或DWH。資料倉庫,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個數據儲存,出於分析性報告和決策支援目的而建立。 為需要業務智慧的企業,提供指導業務流程改進、監視時間、成本、質量以及控制。
-
3 # 碎片時間
資料倉庫一般來說分為三層:接入層、中間層、應用層。
其中,
1、接入層為ODS層,即opreational data store。資料同步,基本與源資料保持一致。
2、中間層包含DWD層、DWS層、DWM層,以及臨時表TMP層和維度DIM層。
DWD層,資料明細層,即data warehouse detail。做標註化,維度補齊,異常處理。DWS層,資料彙總層,即data warehouse summary。單一業務場景,行為資料組裝,提升公共指標的複用。DWM層,資料集市層,即data warehouse market。寬表資料,跨業務資料,行為資料組裝。DIM層,維度表層。一致性維度建設。3、資料應用層,即APP層。個性化指標加工,基於應用的資料組裝。
說到資料倉庫的內容,那可就多了。
首先,我們來看下資料倉庫的定義資料倉庫是一個面向主題的,整合的,相對穩定的,反映歷史變化的資料集合,用於支援管理決策。
從定義就可得知,資料倉庫的最大核心內容便是資料。
那麼資料是儲存在哪裡的傳統資料倉庫的資料一般儲存在teradata、db2、oracle等大型資料庫中;
基於hadoop的資料倉庫的資料是儲存在hdfs中。
這是第2個內容:資料儲存
資料是以什麼形式組織的,有什麼方法論嗎業界有兩大經久不衰的方法論,實體關係建模和維度建模。
實體關係建模,即ER建模,是從全企業角度去考慮,以三正規化建模為基礎去組織資料;
維度建模是以快速實現決策需求為目的,使用星型模型或者雪花模型去組織資料。
這是第3個內容:資料建模
那麼資料是從哪裡來的呢,怎麼來的?資料來自與企業的各個部門,可以是資料庫形式的,也可以是文字形式的。我們透過工具將資料抽取過來,並做一些轉換和清洗,最終存入資料倉庫中。這個過程叫做ETL,也就是第4個內容。
獲取到的資料,我們如何保證它的質量這時候就需要資料質量系統了,在該系統內我們制定一些規則來檢測資料的準確性和有效性。
這是第5個內容:資料質量
獲取到的資料,我們怎麼使用這是第6個內容:資料應用。一般我們會基於業務主題做一系列的報表或者多維模型,供領導或者業務人員進行決策和分析。也會提供一些資料服務直接應用於線上系統或者公司內部系統。
從資料的獲取到使用,勢必會有很多後臺任務,我們怎麼管理這時我們需要一個排程系統來讓後臺任務有條不紊的進行。排程系統負責告訴任務何時可以啟動,以及任務失敗後該怎麼做,等等。這是第7個內容:任務排程
資料倉庫除了業務資料,還有很多其他資料資料倉庫中,除了我們從各業務系統獲取的資料外,其本身也在不斷產生資料。包括任務執行資訊,資料質量資訊,應用使用資訊等等,我們統稱這些為描述資料的資料,並透過元資料系統管理起來,以便後續分析使用,從而改進資料倉庫系統。這是第8個內容:元資料