首頁>技術>

2020年雙11,雲原生實時數倉首次在阿里巴巴雙11核心資料場景落地,實現商業全鏈路實時化,毫秒級海量資料處理能力。搜尋推薦業務資料開發效率提升4倍,菜鳥物流包裹資料鏈路從小時級最佳化到3分鐘,考拉分鐘及小時業務1分鐘內完成,實時資料倉庫的建設在瞬息萬變的市場競爭中成為了標品!

實時同步-實時數倉第一步

實時數倉的建設,第一步就需要將資料同步到大資料計算引擎,一般客戶的RDS/MySQL業務資料庫在實際生產中都是實時不停的進行著資料變化,如何及時將這些資料同步到資料倉庫中是一個難題,同時實際上,只有極少數客戶的RDS業務資料庫是全新建立的,對接資料倉庫時只需要進行實時同步。他們大多數都有歷史既有的資料,只有在這些資料上雲之後的實時資料變更才有業務意義。

傳統實時同步方式的困難點

傳統的實現方式是客戶先手工建立離線全量資料同步任務,並進行完成歷史全量資料的搬遷。此後再進行手工建立實時同步任務。但是一般客戶都是有非常多的資料庫,每個庫中有非常多的表,對這些表逐個建立離線和實時同步任務,是一個很繁瑣和容易出錯遺漏的過程。同時實時同步任務啟動的時機也難以把握,尤其是對於沒有關鍵欄位做主鍵去重時,提前啟動容易造成資料重複,滯後啟動容易造成資料遺漏。

DataWorks資料整合實時同步高效解決方案

DataWorks資料整合提供了 “RDS/MySQL一鍵實時同步至MaxCompute” 的解決方案,可以將RDS/MySQL中的資料庫,透過一次性的簡單配置,全增量一體化同步到MaxCompute中,自動實現先全量資料遷移,然後實時增量保持更新。並支援對於實時同步到MaxCompute的資料,按照指定分割槽自動建立和Base表的merge任務並執行。整套流程完全自動化,無需人工干預,使用者只需關注最終的業務結果表即可。

實時同步效能與價效比

DataWorks資料整合採用自研高效能引擎,在相同的機器規格情況下,RDS實時同步效能最高為 其他資料同步方案的2倍 ,而 價格只有其4分之1 。以一臺24核48G記憶體的機器舉例,DataWorks資料整合RDS實時同步最大QPS為3.5萬,比其他資料同步方案 QPS高1倍 ,可以執行18條實時同步鏈路,而這個規格的機器,每月僅需3000元(以杭州的為例)。

實時同步功能優勢針對RDS/MySQL可以整庫全部表或者部分表、批次的大規模匯入MaxCompute與Hologres歷史存量資料自動化全量匯入,目的MaxCompute、Hologres表可以自動建立,也可以使用已有,支援精細化配置。實時最新資料在全量同步後自動啟動匯入,保證資料既不重複也不丟失。白屏化簡單配置整個方案,輕鬆幾步嚮導即可完成。支援整個方案級別的運維管控,更高level來操盤,避免繁瑣的底層運維。
23
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • Python中requests模擬登入的三種方式