資料湖已成為行業資料架構的主流
什麼是資料湖?
資料湖是一個集中式儲存庫,允許企業以任意規模儲存所有結構化和非結構化資料。企業可以按原樣儲存資料(無需先對資料進行結構化處理),並執行不同型別的分析 – 從控制面板和視覺化到大資料處理、實時分析和機器學習,以指導做出更好的決策。
近十年,資料基建市場在蓬勃增長,根據 Gartner 報道,2019 年資料基建方面的採購費用飆升到 660 億美元,佔據基礎架構類軟體費用的 24%。A16Z (美國知名科技企業風投機構)經過調查相關業內人士得出一個現代化資料架構中,資料湖已成為資料分析架構中的中流砥柱,赫然在列資料分析架構的核心位置。
亞馬遜,微軟等大型公有云廠商也相繼推出了以其物件儲存為核心的資料湖方案,資料湖已經成為業界事實標準的新型資料平臺架構選擇。
AWS 資料湖解決方案
Azure 資料湖解決方案
資料湖面臨的挑戰資料分析基建用於服務兩類常見的分析場景:
一種是用已知資料的解答分析問題,行業通常使用傳統數倉;另一種是使用未知資料來解答未知問題,通常使用資料湖。在這兩種場景之上,為了滿足生產級的分析需求,企業需要進行選型來解決,資料湖和資料倉庫之上的這片“模糊地帶”的需求。
同時,資料和分析管理者也在面臨著無法從資料湖專案中獲取價值的挑戰,資料湖雖然適合儲存資料,但資料湖缺少很多重要的能力:
它不支援資料事務,它不保證資料質量,並且它缺少資料一致性,資料獨立性,這使得它很難混合載入和讀取,批次和流量作業。由於以上的原因,資料湖通常難以達到生產級的分析需求(考慮併發度,查詢延遲,和查詢負載)。
模糊地帶的解決方案Gartner 建議對於已經搭建資料湖的企業來說解決這些挑戰的方案是選型分析查詢加速方案。根據 Gartner 於 2020年12月最新發布的的分析查詢加速的市場引導報告(Market Guide for Analytics Query Accelerators)中,Gartner 介紹到分析查詢加速方案提供了一種使靈活語義的資料儲存中的資料更易於生產和探索性使用的方式。分析查詢加速方案用於提升“模糊地帶”的查詢效能從而使得資料湖可以足以支援生產級別的查詢負載。
查詢加速方案如何選型?Gartner 推薦資料和分析管理者對資料管理解決方的以下幾個方面進行評估以其在分析查詢加速方面的能力:
在POC中使用最複雜的查詢場景來檢驗待評估平臺的查詢效能是否達到預期水平,是否給資料湖提供足夠的查詢最佳化。測試待評估平臺對接相關雲上資料儲存服務和 BI 工具的能力。評估資料安全和資料治理能力是否符合企業的標準和要求。待評估平臺是否使用開放的資料儲存格式如 Parquest, ORC 或 Avro 等。使用自有格式可能會導致廠商鎖定或無法透過 API 進行訪問。查詢加速方案的關鍵使用場景
訪問,探索,合併多種資料型別加速資料湖之上的報表分析使用資料虛擬化混合數倉/資料集市中的結構化資料對底層資料結構的理解和分析最佳化使得在開放格式中的資料查詢效能更佳或使用更便捷場景 1:賦能資料平民分析師
平民資料分析的概念來自 Gartner,指這些在企業中主要工作職能不是統計和分析,他們擁有其專業領域的技能,在工作中需要使用資料分析,而過去是資料分析專家才能做的。Gartner也指出,企業的資料分析領導者需要去更多地賦能這樣的平民資料科學家來實現整個企業的資料分析。
企業行業:金融業,銀行
部署方式:本地部署
場景 2:資料湖之上的統一語義層
小結透過閱讀 Gartner 的這份報告,我們可以看到一個新的資料分析細分市場正在興起。對於企業來說,在資料量指數級增長、資料分析需求日趨複雜的大趨勢下,如何制定一份可順應變化的技術架構,除了考慮企業自身架構的現狀外,可以參考 Gartner 對資料湖之上的這個查詢加速方案。
參考文獻Emerging Architectures for Modern Data Infrastructure:
https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/
Market Guide for Analytics Query Accelerators:
https://www.gartner.com/en/documents/3994139/market-guide-for-analytics-query-accelerators
什麼是資料湖:
https://aws.amazon.com/cn/big-data/datalakes-and-analytics/what-is-a-data-lake/
Azure Data Lake:
https://azure.microsoft.com/en-us/solutions/data-lake/
Citizen Data Science Augments Data Discovery and Simplifies Data Science:
https://www.gartner.com/en/documents/3534848/citizen-data-science-augments-data-discovery-and-simplif
CItizen Data Scientist and Why They Matter?
https://blogs.gartner.com/carlie-idoine/2018/05/13/citizen-data-scientists-and-why-they-matter/