整個系列的文章從銀行資料倉庫架構,ETL,模型,資料管理以及幾大方面應用介紹了資料倉庫,可以讓大家對銀行資料倉庫有個概要的了解。
前文回顧:
但在各子系統設計,技術方面沒有太深入介紹,後續也會陸續補充。作為這個系列文章的最後一節,簡單談談對銀行資料倉庫發展的一些想法。
資料倉庫作為銀行資料中心,在這個大資料時代也發揮了重要的作用,那隨著銀行業業務系統架構的演變,特別是目前目前銀行業務系統都在向採用微服務的分散式架構的轉變,提高系統的吞吐量和執行效率,適應網際網路高併發量和高使用者數的特點。隨之而來的可能有以下變化:
1.資料的分散化:
之前一個貸款系統包含貸前申請,貸中核額,貸後管理的並且還有許多實時查詢,在微服務架構下,一個貸款系統可能會分成貸前,核額,貸後,前端(H5,app,pc)等業務系統,還會呼叫簡訊,簽章,客戶資訊系統等多個關聯絡統。那一個業務流程的資料會分散到各個子系統中。
2.資料量增長:
銀行通過多種自有網際網路渠道(手機、公眾號),以及通過與網際網路平臺合作、開放API等將在網際網路扮演中後臺的角色,即使用者可能感受不到銀行的存在,但是在使用銀行的服務,如目前許多銀行將自己的二、三類賬戶的能力提供給網際網路公司,客戶在網際網路開立的賬戶其實是在其它銀行開立的。因此銀行的賬戶數以及客戶量會快速增長,隨之就是交易量的爆發。
3.資料應用的多樣化:
隨著大資料及AI技術的發展、資料應用將會大幅增長。同時實時應用和資料統計需求將會更多的出現,如風控、營銷、投資決策、反欺詐等模型服務,如業務量的實時監控和實時預警等,目前FLINK、SPARK STREAM等實時資料處理平臺發展也迅速。
資料的分散化和應用的多樣化必然會帶來資料需求的井噴,資料量的增長對技術平臺的擴充套件性和效能要求將會更高,資料倉庫也需要逐步進行架構和功能的演變,以適應業務發展需求:
1.技術平臺方面將會出現更高效能和更大儲存的技術平臺
開源的HADOOP平臺出現,降低了資料倉庫以及大資料平臺的技術門檻和成本,但在易用性和效率方面商用的版本或者大廠(google、Facebook、阿里、騰訊、華為等)的內部優化版本更有優勢,後續雙方也會互相借鑑,特別是一些大廠對開源社群的貢獻將會促使更強大的資料處理技術平臺出現。
2.資料倉庫多叢集化
隨著資料量增加以及需求應用的增加,為降低耦合性以及提高靈活性,資料倉庫不同功能會在分散到多個叢集且不用叢集技術平臺可能也不同,如基礎資料區,各資料集市,實時應用,歷史資料,非結構化資料等可能都會單獨建立叢集,因此叢集之間的資料快速交換也會要求更高。後續可能從底層儲存複製或共享等方面有新的技術的出現。
3.資料倉庫技能通用化
另外隨著資料分散化以及應用的增多,為提高效率,會有多個團隊在資料倉庫上共同開發,資料倉庫將會是一個基礎平臺和基本技能,因此需要做好資源隔離,同時需要將資料倉庫的功能元件化,工具標準化,在全行或全公司的推廣中減少學習成本,提高開發效率。
4.AI平臺和資料倉庫技術平臺融合
AI後續將會逐步變為一個通用功能,hadoop生態目前也有支援機器學習的元件,如mahout、sparklib,但和專業的AI平臺還是有演算法、功能和效能的差距,AI平臺也支援以hadoop作為資料處理平臺,因此後續兩者也會逐步融合,出現更智慧的資料處理技術平臺。
未來其實並不遙遠,科技的世界裡真的可以是一日千里。作為資料倉庫開發、產品經理或者管理者,在做好平時工作的同時需要持續學習新的技術,以便在新的資料需求出現時有技術儲備來提供高效的資料服務。
也需要熟悉資料內容以及在資料背後業務流程,發掘資料後面業務或產品的優化點。以終為始,促進業務和產品的發展。