-
1 # 天善智慧
-
2 # 資料社DataClub
資料倉庫知多少
首先,來了解一下資料倉庫吧!資料倉庫是一個面向主題的、整合的、相對穩定的、反應歷史變化的資料集合。
我們來看這幾個詞:
面向主題,資料倉庫會規劃各種業務主題,所以我們需要理解各大主題的範疇以及之間的關係,這樣就瞭解了資料倉庫的基本架構。整合,資料倉庫的資料會來自各個業務系統資料或者外部爬取資料,所以需要我們知道每個資料倉庫的模型欄位都是來自哪個源,這樣我們就能快速全面的瞭解相關業務。相對穩定,資料倉庫的資料一般不會實時變化,所以我們今天看去年的資料和明天看去年的資料是一樣的,如果我們發現某一個月度資料不對,就可能需要重新彙總歷史月份每天的資料(請理解數數倉小夥伴們沒及時給你資料)反應歷史變化,這就是為什麼預測一般就需要資料分析師們大顯身手了。如何利用資料倉庫最佳化資料分析首先資料分析又是幹什麼的呢?基於業務需求,結合歷史資料,利用相關統計學方法和某些資料探勘工具演算法對資料進行整合、分析,並形成一套最終解決某個業務場景的方案(剛入門資料分析的淺顯思考)。
聽團隊小夥伴說,在資料分析的過程中有大部分的工作都是在處理資料(大部門分我認為是60%工作量),所以為了提高工作效率和質量,藉助資料倉庫進行資料分析無疑是一個很好的選擇。
如何來使用資料倉庫呢?瞭解原始資料,想要真正地理解指標,你必須瞭解原始明細資料,知道是哪裡來的,經過了怎樣維度的計算得到的。尋找“乾淨”資料,資料分析要求資料都是“乾淨的”(可以作為演算法特徵輸入),而資料倉庫中的模型一般都符合你的要求。我們需要找到“乾淨的”模型,但事實往往不會很順利,我們需要找到相近的資料,然後自己找到之間同的“紐帶”(關聯條件)彙總資料。反饋資料,資料分析在做完整個分析方案後,可以和資料放倉庫小夥伴一起分享成果,讓資料倉庫同事學習資料分析思路的同時,也可以更好地規劃模型,從而進入良性迴圈。結語資料倉庫和資料分析都存在的組織架構在很多大團隊會有,很多小團隊是沒有專門的資料分析人員或者資料倉庫人員的,二者是合為一體的。
~
-
3 # 種豆大叔
從您的問題來看,您對資料分析和資料倉庫都挺感興趣。
一般來說,資料分析對應的工作崗位是資料分析師,有偏業務的,也有偏技術的;資料倉庫對應的工作崗位有資料倉庫開發工程師和資料倉庫建模工程師。
所以您得明確方向,到底是資料分析方向還是資料倉庫方向。
如果是資料分析方向偏產品和運營的資料分析:
更加註重業務,需要業務知識的積累,需要從實際工作經驗中沉澱;需要擁有資料意識,即能從表面資料看到背後商業邏輯或者發現商業問題的能力,這個可以從日常生活中或者工作中培養,建議隨時保持資料敏感度。
偏資料探勘的資料分析:
需要紮實的演算法能力和程式碼能力,門檻相對高點。分類演算法,聚類演算法,最大期望演算法,迭代演算法等必須掌握。一般建議讀研專攻,當然也可自律自學成才。
如果是資料倉庫方向資料倉庫開發:
其實本人就是一名資料倉庫開發工程師,大學時專業是數學系,一畢業便去了一家計算機公司做資料倉庫開發。當時只懂得sqlserver和會幾句簡單的sql,比如left join,inner join等都是在公司的培訓分享上知道的。
以上本人的經歷,只是想說,資料倉庫開發入門並不難。首先您得熟練掌握sql開發,同時需要知道sql最佳化技巧;其次您得了解資料庫(傳統資料庫和nosql資料庫)和一些etl工具(kettle、datastage、informatic,以及時下非常火的hadoop生態);
如果是大資料庫開發,還得具備程式設計能力,掌握時下流行的大資料開源技術,spark,flink等。
資料倉庫建模:
資料倉庫建模工程師主要職責是負責資料倉庫模型的設計,所以必須得掌握資料倉庫建模理論(immon的實體關係建模,kimball的維度建模,datavault建模等等),必須得具備業務抽象成資料的能力。
同時對於傳統型資料倉庫和nosql型資料倉庫,何種建模方法更適合,以及建模方法中哪些細節可以最佳化,從而適應不同型別的資料庫或者場景,必須得有自己的深刻見解。
最後最後總結一下,無論是從事什麼行業,或者什麼崗位,一開始相關知識你沒學過不重要,但後續的持續學習非常重要。學無止境,這樣你才不會被淘汰,才會越來越優秀。
你好,我是一名大四的學生,對應資料分析方面挺感興趣的,但我存在一些疑惑,想要諮詢一下:我是一名女生,對資料倉庫挺感興趣的,學業上對於知識都只是略有涉及,現在可以說是零基礎學習,但我願意付出努力去學習,可是我不知從何下手完成,可以給我一些建議嗎?如果我數學邏輯不是很好,我適合資料開發相關的工作嗎人?如果想要勝任資料開發相關的工作,需要多長的學習週期去沉澱呢?
回覆列表
作為一個商業智慧 BI 的開發者或架構師,不僅要熟練的掌握各種開發工具的使用、在專案中熟悉業務過程瞭解使用者需求,而且要熟練的掌握資料倉庫建模方法論。不懂得如何建模,就無法構建一個穩健的、可伸縮性強的資料倉庫,這將給後續的擴充套件開發和維護帶來巨大的災難。
對於個人職業提升來說,對資料倉庫建模掌握的高低程度也決定著 BI 開發工程師發展空間的大小,是一成不變的抱著工具辛辛苦苦寫 SQL 每日每夜跑 ETL 還得守著結果對資料? 還是站在業務的角度與業務人員溝通最終設計出優秀的資料倉庫框架?
商業智慧 BI 專案的開發是一個由業務驅動的迭代開發的過程,業務環境是在快速變化的,而業務資料的型別也是如此。一個成功的資料倉庫解決方案的基礎就是靈活的設計,這種設計可以適應不斷變化的業務資料。資料倉庫的架構和倉庫資料的建模是倉庫設計中的核心過程。
如果要學習資料倉庫的話,天善學院全網唯一的資料倉庫教程推薦給您:
資料倉庫建模指南系列教程 【結合大量專案實踐的長篇教程、國內首發】https://edu.hellobi.com/course/54
資料倉庫建模是一個龐大的主題,資料倉庫建模指南的目標是講整個資料倉庫建模的所有重要組成部分均能詳細縝密的呈現給各種學友。該課程體系一共分為五大部分:
1. 高質量資料庫建模基礎
2. 資料倉庫架構
3. Bill Inmon的企業級資料倉庫建模方法論
4. Ralph Kimball的維度建模方法論
5. 資料倉庫生命週期
其中《高質量資料庫建模》是建模系列的基礎課程,本課程的目的是,使學友能夠透過課程理解資料庫建模的方式,以及掌握高質量的完成資料模型的方法。課程的內容包括:
1. 高質量資料庫建模的意義
1)資料,資訊,元資料的概念(我相信很多人不知道資料和資訊之間的區別)
2)低質量資料建模有哪些現象(反躬自省,看看自己犯過哪些建模的錯誤)
3)高質量資料建模的意義
2. 高質量資料庫建模流程概述
1)建模的流程有哪些階段
2)各個階段的作用是什麼?
3)每個階段的Tips
4)交付品的特點
3. 關係型資料庫的基本概念
1) 實體/屬性
2) 關係
3) 域
4) 鍵
5)超類/子類
6)約束
4. 正規化
1) 1NF
2) 2NF
3) 3NF
4) BCNF/4NF/5NF
5. 命名規則
1) 商業用語的管理
2) 術語表的定義
3) 表的分類以及命名規則
4) 列的分類以及命名規則
5) 如何在模型工具中實現
6. 元資料的定義(Bingo Card)
1) 系統級
2) 表級
3) 列級
7. 概念模型定義
1)需求分析
2) 模型計劃
3)主題域的劃分
4) Tips
5)例項
8. 邏輯模型定義
1) 邏輯模型分析
2) 邏輯模型構建
3) 規範化
4) 反規範化
5) 抽象化
6) Tips
7) 例項
9. 物理模型定義
10 . 高質量模型定義的Check List總結
11. Power Designer使用技巧總結
12. 模型管理技巧總結
建議還是從資料分析開始學習比較好入手。
數學邏輯不是很好和資料倉庫是沒有關係的,可能在資料分析上面對數學的要求更高。除了學習相關的書籍之外,也可以學習一些比較好的教程,上手比較快,比如磨劍之作,七週成“師”!秦路主講,七週成為資料分析師課程。
最後,沉下心,相信你一定有所收穫。