導讀:本文基於三中心且跨海外的場景,分享一種多中心容災架構及實現方式,介紹幾種分散式ID生成演算法,以及在資料同步上最終一致性的實現過程。
作者|赤芒
背景
為什麼稱之為真正的異地多活?異地多活已經不是什麼新鮮詞,但似乎一直都沒有實現真正意義上的異地多活。一般有兩種形式:一種是應用部署在同城兩地或多地,資料庫一寫多讀(主要是為了保證資料一致性),當主寫庫掛掉,再切換到備庫上;另一種是單元化服務,各個單元的資料並不是全量資料,一個單元掛掉,並不能切換到其他單元。目前還能看到雙中心的形式,兩個中心都是全量資料,但雙跟多還是有很大差距的,這裡其實主要受限於資料同步能力,資料能夠在3個及以上中心間進行雙向同步,才是解決真正異地多活的核心技術所在。
提到資料同步,這裡不得不提一下DTS(Data Transmission Service),最初阿里的DTS並沒有雙向同步的能力,後來有了雲上版本後,也只限於兩個資料庫之間的雙向同步,做不到A<->B<->C這種形式,所以我們自研了資料同步元件,雖然不想重複造輪子,但也是沒辦法,後面會介紹一些實現細節。
再談談為什麼要做多中心容災,以我所在的CDN&影片雲團隊為例,首先是海外業務的需要,為了能夠讓海外使用者就近訪問我們的服務,我們需要提供一個海外中心。但大多數業務還都是以國內為主的,所以國內要建雙中心,防止核心庫掛掉整個管控就都掛掉了。同時海外的環境比較複雜,一旦海外中心掛掉了,還可以用國內中心頂上。國內的雙中心還有個非常大的好處是可以透過一些路由策略,分散單中心繫統的壓力。這種三個中心且跨海外的場景,應該是目前異地多活最難實現的了。
系統CAP
面對這種全球性跨地域的分散式系統,我們不得不談到CAP理論,為了能夠多中心全量資料提供服務,Partition tolerance(分割槽容錯性)是必須要解決的,但是根據CAP的理論,Consistency(一致性)和Availability(可用性)就只能滿足一個。對於線上應用,可用性自不用說了,那面對這樣一個問題,最終一致性是最好的選擇。
設計原則
資料分割槽選擇一個數據維度來做資料切片,進而實現業務可以分開部署在不同的資料中心。主鍵需要設計成分散式ID形式,這樣當進行資料同步時,不會造成主鍵衝突。
下面介紹幾個分散式ID生成演算法。
SnowFlake演算法1)演算法說明
+--------------------------------------------------------------------------+| 1 Bit Unused | 41 Bit Timestamp | 10 Bit NodeId | 12 Bit Sequence Id |+--------------------------------------------------------------------------+
最高位是符號位,始終為0,不可用。41位的時間序列,精確到毫秒級,41位的長度可以使用69年。時間位還有一個很重要的作用是可以根據時間進行排序。10位的機器標識,10位的長度最多支援部署1024個節點。12位的計數序列號,序列號即一系列的自增ID,可以支援同一節點同一毫秒生成多個ID序號,12位的計數序列號支援每個節點每毫秒產生4096個ID序號。
2)演算法總結
優點:
完全是一個無狀態機,無網路呼叫,高效可靠。缺點:
依賴機器時鐘,如果時鐘錯誤比如時鐘回撥,可能會產生重複Id。容量存在侷限性,41位的長度可以使用69年,一般夠用。併發侷限性,每毫秒單機最大產生4096個Id。只適用於int64型別的Id分配,int32位Id無法使用。3)適用場景
一般的非Web應用程式的int64型別的Id都可以使用。
為什麼說非Web應用,Web應用為什麼不可以用呢,因為JavaScript支援的最大整型就是53位,超過這個位數,JavaScript將丟失精度。
RainDrop演算法1)演算法說明
為了解決JavaScript丟失精度問題,由Snowflake演算法改造而來的53位的分散式Id生成演算法。
+--------------------------------------------------------------------------+| 11 Bit Unused | 32 Bit Timestamp | 7 Bit NodeId | 14 Bit Sequence Id |+--------------------------------------------------------------------------+
最高11位是符號位,始終為0,不可用,解決JavaScript的精度丟失。32位的時間序列,精確到秒級,32位的長度可以使用136年。7位的機器標識,7位的長度最多支援部署128個節點。14位的計數序列號,序列號即一系列的自增Id,可以支援同一節點同一秒生成多個Id,14位的計數序列號支援每個節點每秒單機產生16384個Id。
2)演算法總結
優點:
完全是一個無狀態機,無網路呼叫,高效可靠。缺點:
依賴機器時鐘,如果時鐘錯誤比如時鐘不同步、時鐘回撥,會產生重複Id。容量存在侷限性,32位的長度可以使用136年,一般夠用。併發侷限性,低於snowflake。只適用於int64型別的Id分配,int32位Id無法使用。3)適用場景
一般的Web應用程式的int64型別的Id都基本夠用。
分割槽獨立分配演算法1)演算法說明
透過將Id分段分配給不同單元獨立管理。同一個單元的不同機器再透過共享redis進行單元內的集中分配。
相當於每個單元預先分配了一批Id,然後再由各個單元內進行集中式分配。
比如int32的範圍從-2147483648到2147483647,Id使用範圍[1,2100000000),前兩位表示region,則每個region支援100000000(一億)個資源,即Id組成格式可以表示為[0-20][0-99999999]。
即int32位可以支援20個單元,每個單元支援一億個Id。
2)演算法總結
優點:
區域之間無狀態,無網路呼叫,具備可靠唯一性缺點:
分割槽容量存在侷限性,需要預先評估業務容量。從Id中無法判斷生成的先後順序。3)適用場景
適用於int32型別的Id分配,單個區域內容量上限可評估的業務使用。
集中式分配演算法1)演算法說明
集中式可以是Redis,也可以是ZooKeeper,也可以利用資料庫的自增Id集中分配。
2)演算法總結
優點:
全域性遞增可靠的唯一性Id無容量和併發量限制缺點:
增加了系統複雜性,需要強依賴中心服務。3)適用場景
具備可靠的中心服務的場景可以選用,其他int32型別無法使用分割槽獨立分配的業務場景。
總結每一種分配演算法都有各自的適用場景,需要根據業務需求選擇合適的分配演算法。主要需要考慮幾個因素:
Id型別是int64還是int32。業務容量以及併發量需求。是否需要與JavaScript互動。中心封閉儘量讓呼叫發生在本中心,儘量避免跨資料中心的呼叫,一方面為了使用者體驗,本地呼叫RT更短,另一方面防止同一個資料在兩個中心同時寫入造成資料衝突覆蓋。一般可以選擇一種或多種路由方式,如ADNS根據地域路由,透過Tengine根據使用者屬性路由,或者透過sidecar方式進行路由,具體實現方式這裡就不展開說了。
最終一致性前面兩種其實就是為了最終一致性做鋪墊,因為資料同步是犧牲了一部分實時的效能,所以我們需要做資料分割槽,做中心封閉,這樣才能保證使用者請求的及時響應和資料的實時準確性。
前面提到了由於DTS支援的並不是很完善,所以我基於DRC(一個阿里內部資料訂閱元件,類似canal)自己實現了資料同步的能力,下面介紹一下實現一致性的過程,中間也走了一些彎路。
順序接收DRC訊息為了保證對於DRC訊息順序的接收,首先想到的是採用單機消費的方式,而單機帶來的問題是資料傳輸效率慢。針對這個問題,涉及到併發的能力。大家可能會想到基於表級別的併發,但是如果單表資料變更大,同樣有效能瓶頸。這裡我們實現了主鍵級別的併發能力,也就是說在同一主鍵上,我們嚴格保序,不同主鍵之間可以併發同步,將併發能力又提高了N個數量級。
同時單機消費的第二個問題就是單點。所以我們要實現Failover。這裡我們採用Raft協議進行多機選主以及對主的請求。當單機掛掉之後,其餘的機器會自動選出新的Leader執行同步任務。
訊息跨單元傳輸為了很好的支援跨單元資料同步,我們採用了MNS(阿里雲訊息服務),MNS本身是個分散式的元件,無法滿足訊息的順序性。起初為了保證強一致性,我採用訊息染色與還原的方式,具體實現見下圖:
透過實踐我們發現,這種客戶端排序並不可靠,我們的系統不可能無限去等待一個訊息的,這裡涉及到最終一致性的問題,在第3點中繼續探討。其實對於順序訊息,RocketMQ是有順序訊息的,但是RocketMQ目前還沒有實現跨單元的能力,而單純的就資料同步而言,我們只要保證最終一致性就可以了,沒有必要為了保證強一致性而犧牲效能。同時MNS訊息如果沒有消費成功,訊息是不會丟掉的,只有我們去顯示的刪除訊息,訊息才會丟,所以最終這個訊息一定會到來。
最終一致性既然MNS無法保證強順序,而我們做的是資料同步,只要能夠保證最終一致性就可以了。2012年CAP理論提出者Eric Brewer撰文回顧CAP時也提到,C和A並不是完全互斥,建議大家使用CRDT來保障一致性。CRDT(Conflict-Free Replicated Data Type)是各種基礎資料結構最終一致演算法的理論總結,能根據一定的規則自動合併,解決衝突,達到強最終一致的效果。透過查閱相關資料,我們瞭解到CRDT要求我們在資料同步的時候要滿足交換律、結合律和冪等律。如果操作本身滿足以上三律,merge操作僅需要對update操作進行回放即可,這種形式稱為op-based CRDT,如果操作本身不滿足,而透過附帶額外元資訊能夠讓操作滿足以上三律,這種形式稱為state-based CRDT。
透過DRC的拆解,資料庫操作有三種:insert、update、delete,這三種操作不管哪兩種操作都是不能滿足交換律的,會產生衝突,所以我們在併發級別(主鍵)加上額外資訊,這裡我們採用序號,也就是2中提到的染色的過程,這個過程是保留的。而主鍵之間是併發的,沒有順序而言。當接收訊息的時候我們並不保證強順序,採用LWW(Last Write Wins)的方式,也就是說我們執行當前的SQL而放棄前面的SQL,這樣我們就不用考慮交換的問題。同時我們會根據訊息的唯一性(例項+單元+資料庫+MD5(SQL))對每個訊息做冪等,保證每個SQL都不會重複執行。而對於結合律,我們需要對每個操作單獨分析。
1)insert
insert是不滿足結合律的,可能會有主鍵衝突,我們把insert語句變更insert ignore,而收到insert操作說明之前並不存在這樣一條記錄,或者前面有delete操作。而delete操作可能還沒有到。這時insert ignore操作返回結果是0,但這次的insert資料可能跟已有的記錄內容並不一致,所以這裡我們將這個insert操作轉換為update 操作再執行一次。
2)update
update操作天然滿足結合律。但是這裡又要考慮一種特殊情況,那就是執行結果為0。這說明此語句之前一定存在一個insert語句,但這個語句我們還沒有收到。這時我們需要利用這條語句中的資料將update語句轉成insert再重新執行一次。
3)delete
delete也是天然滿足結合律的,而無論之前都有什麼操作,只要執行就好了。
在insert和update操作裡面,都有一個轉換的過程,而這裡有個前提,那就是從DRC拿到的變更資料每一條都是全欄位的。可能有人會說這裡的轉換可以用replace into替換,為什麼沒有使用replace into呢,首先由於順序錯亂的情況畢竟是少數,而且我們並不單純複製資料,同時也是在複製操作,而對於DRC來說,replace into操作會被解析為update或insert。這樣無法保證訊息唯一性,也無法做到防迴圈廣播,所以並不推薦。我們看看下面的流程圖也許會更清晰些:
容災架構
根據上面的介紹,我們來看下多中心容災架構的形態,這裡用了兩級排程來保證中心封閉,同時利用自研的同步元件進行多中心雙向同步。我們還可以制定一些快恢策略,例如快速摘掉一箇中心。同時還有一些細節需要考慮,例如在摘掉一箇中心的過程中,在摘掉的中心資料還沒有同步到其他中心的過程中,應該禁掉寫操作,防止短時間出現雙寫的情況,由於我們同步的時間都是毫秒級的,所以影響很小。
結束語
我們的資料同步元件hera-dts已在BU內部進行使用,資料同步的邏輯還是比較複雜的,尤其是實現雙向同步,其中涉及到斷點續傳、Failover、防丟資料、防訊息重發、雙向同步中防迴圈複製等非常多的細節問題。我們的同步元件也是經歷了一段時間的最佳化才達到穩定的版本。