對於一個數據湖而言,它與大資料平臺相同的地方在於它也具備處理超大規模資料所需的儲存和計算能力,能提供多模式的資料處理能力;增強點在於資料湖提供了更為完善的資料管理能力,具體體現在:
1)更強大的資料接入能力。資料接入能力體現在對於各類外部異構資料來源的定義管理能力,以及對於外部資料來源相關資料的抽取遷移能力,抽取遷移的資料包括外部資料來源的元資料與實際儲存的資料。
2)更強大的資料管理能力。管理能力具體又可分為基本管理能力和擴充套件管理能力。基本管理能力包括對各類元資料的管理、資料訪問控制、資料資產管理,是一個數據湖系統所必須的,後面我們會在“各廠商的資料湖解決方案”一節相信討論各個廠商對於基本管理能力的支援方式。擴充套件管理能力包括任務管理、流程編排以及與資料質量、資料治理相關的能力。任務管理和流程編排主要用來管理、編排、排程、監測在資料湖系統中處理資料的各類任務,通常情況下,資料湖構建者會透過購買/研製定製的資料整合或資料開發子系統/模組來提供此類能力,定製的系統/模組可以透過讀取資料湖的相關元資料,來實現與資料湖系統的融合。而資料質量和資料治理則是更為複雜的問題,一般情況下,資料湖系統不會直接提供相關功能,但是會開放各類介面或者元資料,供有能力的企業/組織與已有的資料治理軟體整合或者做定製開發。
3)可共享的元資料。資料湖中的各類計算引擎會與資料湖中的資料深度融合,而融合的基礎就是資料湖的元資料。好的資料湖系統,計算引擎在處理資料時,能從元資料中直接獲取資料儲存位置、資料格式、資料模式、資料分佈等資訊,然後直接進行資料處理,而無需進行人工/程式設計干預。更進一步,好的資料湖系統還可以對資料湖中的資料進行訪問控制,控制的力度可以做到“庫表列行”等不同級別
對於一個數據湖而言,它與大資料平臺相同的地方在於它也具備處理超大規模資料所需的儲存和計算能力,能提供多模式的資料處理能力;增強點在於資料湖提供了更為完善的資料管理能力,具體體現在:
1)更強大的資料接入能力。資料接入能力體現在對於各類外部異構資料來源的定義管理能力,以及對於外部資料來源相關資料的抽取遷移能力,抽取遷移的資料包括外部資料來源的元資料與實際儲存的資料。
2)更強大的資料管理能力。管理能力具體又可分為基本管理能力和擴充套件管理能力。基本管理能力包括對各類元資料的管理、資料訪問控制、資料資產管理,是一個數據湖系統所必須的,後面我們會在“各廠商的資料湖解決方案”一節相信討論各個廠商對於基本管理能力的支援方式。擴充套件管理能力包括任務管理、流程編排以及與資料質量、資料治理相關的能力。任務管理和流程編排主要用來管理、編排、排程、監測在資料湖系統中處理資料的各類任務,通常情況下,資料湖構建者會透過購買/研製定製的資料整合或資料開發子系統/模組來提供此類能力,定製的系統/模組可以透過讀取資料湖的相關元資料,來實現與資料湖系統的融合。而資料質量和資料治理則是更為複雜的問題,一般情況下,資料湖系統不會直接提供相關功能,但是會開放各類介面或者元資料,供有能力的企業/組織與已有的資料治理軟體整合或者做定製開發。
3)可共享的元資料。資料湖中的各類計算引擎會與資料湖中的資料深度融合,而融合的基礎就是資料湖的元資料。好的資料湖系統,計算引擎在處理資料時,能從元資料中直接獲取資料儲存位置、資料格式、資料模式、資料分佈等資訊,然後直接進行資料處理,而無需進行人工/程式設計干預。更進一步,好的資料湖系統還可以對資料湖中的資料進行訪問控制,控制的力度可以做到“庫表列行”等不同級別