一、資料中臺功能架構
資料中臺建設是一個宏大的工程,涉及整體規劃、組織搭建、中臺落地與運營等方方面面的工作,本節重點從物理形態上講述企業的資料中臺應該如何搭建。一般來講,企業的資料中臺在物理形態上分為三個大層:工具平臺層、資料資產層和資料應用層。
1. 工具平臺層
工具平臺層是資料中臺的載體,包含大資料處理的基礎能力技術,如集資料採集、資料儲存、資料計算、資料安全等於一體的大資料平臺;還包含建設資料中臺的一系列工具,如離線或實時資料研發工具、資料聯通工具、標籤計算工具、演算法平臺工具、資料服務工具及自助分析工具。
以上工具集基本覆蓋了資料中臺的資料加工過程。
1)資料開發平臺
大資料的4V特徵決定了資料處理是一個複雜的工程。建設資料中臺需要搭建建設資料中臺的基建工具,要滿足各種結構化、非結構化資料的採集、儲存與處理,要根據場景處理離線和實時資料的計算與儲存,要將一個個資料處理任務串聯起來以保障資料的運轉能賦能到業務端。
2)資料資產管理
資料中臺建設的成功與否,與資料資產是否管理有序有直接關係。前文提到,資料中臺是需要持續運營的。隨著時間的推移,資料不斷湧入資料中臺,如果沒有一套井然有序的資料資產平臺來進行管理,後果將不堪設想。
3)標籤工廠
標籤工廠又稱標籤平臺,是資料中臺體系內的明星工具類產品。標籤建設是資料中臺走向資料業務化的關鍵步驟。因此,一個強大的標籤工廠是資料中臺價值體現的有力保障。
標籤工廠按功能一般分為兩部分:底層的標籤計算引擎與上層的標籤配置與管理門戶。標籤計算引擎一般會採用MapReduce、Spark、Flink等大資料計算框架,而計算後的標籤儲存可採用Elasticsearch或者HBase,這樣儲存的好處是便於快速檢索。
4)ID-Mapping
ID-Mapping又稱ID打通工具,是資料中臺建設的可選項。可選不代表不重要,在一些多渠道、多觸點的新零售企業,離開了這個工具,資料質量將大打折扣。
5)機器學習平臺
在整個機器學習的工作流中,模型訓練的程式碼開發只是其中一部分。除此之外,資料準備、資料清洗、資料標註、特徵提取、超引數的選擇與最佳化、訓練任務的監控、模型的釋出與整合、日誌的回收等,都是流程中不可或缺的部分。
2、資料資產層
資料資產層是資料中臺的核心層,它依託於工具平臺層,那麼這一層又有什麼內容呢?答案是因企業的業務與行業而異,但總體來講,可以劃分為主題域模型區、標籤模型區和演算法模型區。
1)主題域模型
主題域模型是指面向業務分析,將業務過程或維度進行抽象的集合。業務過程可以概括為一個個不可拆分的行為事件,如訂單、合同、營銷等。
為了保障整個體系的生命力,主題域即資料域需要抽象提煉,並且長期維護和更新,但是不輕易變動。在劃分資料域時,既要涵蓋當前所有業務的需求,又要保證新業務能夠無影響地被包含進已有的資料域中或者很容易擴充套件新的資料域。
2)標籤模型
標籤模型的設計與主題域模型方法大同小異,同樣需要結合業務過程進行設計,需要充分理解業務過程。標籤一般會涉及企業經營過程中的實體物件,如會員、商品、門店、經銷商等。這些主體一般來說都穿插在各個業務流程中,比如會員一般都穿插在關注、註冊、瀏覽、下單、評價、服務等環節。
3)演算法模型
演算法模型更加貼近業務場景。在設計算法模型的時候要反覆推演演算法模型使用的場景,包括模型的冷啟動等問題。整個模型搭建過程包含定場景、資料來源準備、特徵工程、模型設計、模型訓練、正式上線、引數調整7個環節。
3、資料應用層
資料應用層嚴格來說不屬於資料中臺的範疇,但資料中臺的使命就是為業務賦能,幾乎所有企業在建設資料中臺的同時都已規劃好資料應用。資料應用可按資料使用場景來劃分為以下多個使用領域。
1)分析與決策應用
分析與決策應用主要面向企業的領導、運營人員等角色,基於企業的業務背景和資料分析訴求,針對客戶拉新、老客運營、銷售能力評估等分析場景,透過主題域模型、標籤模型和演算法模型,為企業提供視覺化分析專題。
使用者在分析與決策應用中快速獲取企業現狀和問題,同時可對資料進行鑽取、聯動分析等,深度分析企業問題及其原因,從而輔助企業進行管理和決策,實現精準管理和智慧決策。
2)標籤應用
標籤旨在挖掘實體物件(如客戶、商品等)的特徵,將資料轉化成真正對業務有價值的產物並對外提供標籤資料服務,多應用於客戶圈選、精準營銷和個性化推薦等場景,從而實現資產變現,不斷擴大資產價值。
標籤體系的設計立足於標籤使用場景,不同使用場景對標籤需求是不同的,譬如在客戶個性化推薦場景下,需要客戶性別、近期關注商品型別、消費能力和消費習慣等標籤。
3)智慧應用
智慧應用是數智化的一個典型外在表現。比如在營銷領域,不僅可實現千人千面的使用者個性化推薦,如猜你喜歡、加購推薦等,還可藉助智慧營銷工具進行高精準度的使用者觸達,推動首購轉化、二購促進、流失挽留等。
二、資料中臺技術架構隨著大資料與人工智慧技術的不斷迭代以及商業大資料工具產品的推出,資料中臺的架構設計大可不必從零開始,可以採購一站式的研發平臺產品,或者基於一些開源產品進行組裝。企業可根據自身情況進行權衡考慮,但無論採用哪種方案,資料中臺的架構設計以滿足當前資料處理的全場景為基準。
以開源技術為例,資料中臺的技術架構如圖所示,總體來看一般包含以下幾種功能:資料採集、資料計算、資料儲存和資料服務;在研發、運維和公共服務方面包括離線開發、實時開發、資料資產、任務排程、資料安全、叢集管理。
1、資料採集層
按資料的實時性,資料採集分為離線採集和實時採集。離線採集使用DataX和Sqoop,實時採集使用Kafka Connect、Flume、Kafka。
在離線資料採集中,建議使用DataX和Sqoop相結合。DataX適合用在資料量較小且採用非關係型資料庫的場景,部署方式很簡單。Sqoop適合用在資料量較大且採用關係型資料庫的場景。
2. 資料計算層
資料計算採用YARN作為各種計算框架部署的執行排程平臺,計算框架有MapReduce、Spark及Spark SQL、Flink、Spark MLlib等。
3. 資料儲存層
資料儲存層所有的儲存引擎都基於Hadoop的HDFS分散式儲存,從而達到資料多份冗餘和充分利用物理層多磁碟的I/O效能。在HDFS上分別搭建Hive、HBase作為儲存資料庫,在這兩個資料庫的基礎上再搭建Impala、Phoenix、Presto引擎。
4. 資料服務層
資料服務層採用的技術與業務應用類似,主要基於開源Spring Cloud、Spring Boot等構建,使用統一的服務閘道器。