多中心容災實踐：如何實現真正的異地多活？

首頁>技術>凌雲時刻2021-02-19 16:30

多中心容災實踐：如何實現真正的異地多活？

導讀：本文基於三中心且跨海外的場景，分享一種多中心容災架構及實現方式，介紹幾種分散式ID生成演算法，以及在資料同步上最終一致性的實現過程。

作者｜赤芒

背景

為什麼稱之為真正的異地多活？異地多活已經不是什麼新鮮詞，但似乎一直都沒有實現真正意義上的異地多活。一般有兩種形式：一種是應用部署在同城兩地或多地，資料庫一寫多讀（主要是為了保證資料一致性），當主寫庫掛掉，再切換到備庫上；另一種是單元化服務，各個單元的資料並不是全量資料，一個單元掛掉，並不能切換到其他單元。目前還能看到雙中心的形式，兩個中心都是全量資料，但雙跟多還是有很大差距的，這裡其實主要受限於資料同步能力，資料能夠在3個及以上中心間進行雙向同步，才是解決真正異地多活的核心技術所在。

提到資料同步，這裡不得不提一下DTS（Data Transmission Service），最初阿里的DTS並沒有雙向同步的能力，後來有了雲上版本後，也只限於兩個資料庫之間的雙向同步，做不到A<->B<->C這種形式，所以我們自研了資料同步元件，雖然不想重複造輪子，但也是沒辦法，後面會介紹一些實現細節。

再談談為什麼要做多中心容災，以我所在的CDN&影片雲團隊為例，首先是海外業務的需要，為了能夠讓海外使用者就近訪問我們的服務，我們需要提供一個海外中心。但大多數業務還都是以國內為主的，所以國內要建雙中心，防止核心庫掛掉整個管控就都掛掉了。同時海外的環境比較複雜，一旦海外中心掛掉了，還可以用國內中心頂上。國內的雙中心還有個非常大的好處是可以透過一些路由策略，分散單中心繫統的壓力。這種三個中心且跨海外的場景，應該是目前異地多活最難實現的了。

系統CAP

面對這種全球性跨地域的分散式系統，我們不得不談到CAP理論，為了能夠多中心全量資料提供服務，Partition tolerance（分割槽容錯性）是必須要解決的，但是根據CAP的理論，Consistency（一致性）和Availability（可用性）就只能滿足一個。對於線上應用，可用性自不用說了，那面對這樣一個問題，最終一致性是最好的選擇。

設計原則

資料分割槽

選擇一個數據維度來做資料切片，進而實現業務可以分開部署在不同的資料中心。主鍵需要設計成分散式ID形式，這樣當進行資料同步時，不會造成主鍵衝突。

下面介紹幾個分散式ID生成演算法。

SnowFlake演算法

1）演算法說明

+--------------------------------------------------------------------------+| 1 Bit Unused | 41 Bit Timestamp |  10 Bit NodeId  |   12 Bit Sequence Id |+--------------------------------------------------------------------------+

最高位是符號位，始終為0，不可用。41位的時間序列，精確到毫秒級，41位的長度可以使用69年。時間位還有一個很重要的作用是可以根據時間進行排序。10位的機器標識，10位的長度最多支援部署1024個節點。12位的計數序列號，序列號即一系列的自增ID，可以支援同一節點同一毫秒生成多個ID序號，12位的計數序列號支援每個節點每毫秒產生4096個ID序號。

2）演算法總結

優點：

完全是一個無狀態機，無網路呼叫，高效可靠。

缺點：

依賴機器時鐘，如果時鐘錯誤比如時鐘回撥，可能會產生重複Id。容量存在侷限性，41位的長度可以使用69年，一般夠用。併發侷限性，每毫秒單機最大產生4096個Id。只適用於int64型別的Id分配，int32位Id無法使用。

3）適用場景

一般的非Web應用程式的int64型別的Id都可以使用。

為什麼說非Web應用，Web應用為什麼不可以用呢，因為JavaScript支援的最大整型就是53位，超過這個位數，JavaScript將丟失精度。

RainDrop演算法

1）演算法說明

為了解決JavaScript丟失精度問題，由Snowflake演算法改造而來的53位的分散式Id生成演算法。

+--------------------------------------------------------------------------+| 11 Bit Unused | 32 Bit Timestamp |  7 Bit NodeId  |   14 Bit Sequence Id |+--------------------------------------------------------------------------+

最高11位是符號位，始終為0，不可用，解決JavaScript的精度丟失。32位的時間序列，精確到秒級，32位的長度可以使用136年。7位的機器標識，7位的長度最多支援部署128個節點。14位的計數序列號，序列號即一系列的自增Id，可以支援同一節點同一秒生成多個Id，14位的計數序列號支援每個節點每秒單機產生16384個Id。

2）演算法總結

優點：

完全是一個無狀態機，無網路呼叫，高效可靠。

缺點：

依賴機器時鐘，如果時鐘錯誤比如時鐘不同步、時鐘回撥，會產生重複Id。容量存在侷限性，32位的長度可以使用136年，一般夠用。併發侷限性，低於snowflake。只適用於int64型別的Id分配，int32位Id無法使用。

3）適用場景

一般的Web應用程式的int64型別的Id都基本夠用。

分割槽獨立分配演算法

1）演算法說明

透過將Id分段分配給不同單元獨立管理。同一個單元的不同機器再透過共享redis進行單元內的集中分配。

相當於每個單元預先分配了一批Id，然後再由各個單元內進行集中式分配。

比如int32的範圍從-2147483648到2147483647，Id使用範圍[1,2100000000)，前兩位表示region，則每個region支援100000000（一億）個資源，即Id組成格式可以表示為[0-20][0-99999999]。

即int32位可以支援20個單元，每個單元支援一億個Id。

2）演算法總結

優點：

區域之間無狀態，無網路呼叫，具備可靠唯一性

缺點：

分割槽容量存在侷限性，需要預先評估業務容量。從Id中無法判斷生成的先後順序。

3）適用場景

適用於int32型別的Id分配，單個區域內容量上限可評估的業務使用。

集中式分配演算法

1）演算法說明

集中式可以是Redis，也可以是ZooKeeper，也可以利用資料庫的自增Id集中分配。

2）演算法總結

優點：

全域性遞增可靠的唯一性Id無容量和併發量限制

缺點：

增加了系統複雜性，需要強依賴中心服務。

3）適用場景

具備可靠的中心服務的場景可以選用，其他int32型別無法使用分割槽獨立分配的業務場景。

總結

每一種分配演算法都有各自的適用場景，需要根據業務需求選擇合適的分配演算法。主要需要考慮幾個因素：

Id型別是int64還是int32。業務容量以及併發量需求。是否需要與JavaScript互動。中心封閉

儘量讓呼叫發生在本中心，儘量避免跨資料中心的呼叫，一方面為了使用者體驗，本地呼叫RT更短，另一方面防止同一個資料在兩個中心同時寫入造成資料衝突覆蓋。一般可以選擇一種或多種路由方式，如ADNS根據地域路由，透過Tengine根據使用者屬性路由，或者透過sidecar方式進行路由，具體實現方式這裡就不展開說了。

最終一致性

前面兩種其實就是為了最終一致性做鋪墊，因為資料同步是犧牲了一部分實時的效能，所以我們需要做資料分割槽，做中心封閉，這樣才能保證使用者請求的及時響應和資料的實時準確性。

前面提到了由於DTS支援的並不是很完善，所以我基於DRC（一個阿里內部資料訂閱元件，類似canal）自己實現了資料同步的能力，下面介紹一下實現一致性的過程，中間也走了一些彎路。

順序接收DRC訊息

為了保證對於DRC訊息順序的接收，首先想到的是採用單機消費的方式，而單機帶來的問題是資料傳輸效率慢。針對這個問題，涉及到併發的能力。大家可能會想到基於表級別的併發，但是如果單表資料變更大，同樣有效能瓶頸。這裡我們實現了主鍵級別的併發能力，也就是說在同一主鍵上，我們嚴格保序，不同主鍵之間可以併發同步，將併發能力又提高了N個數量級。

同時單機消費的第二個問題就是單點。所以我們要實現Failover。這裡我們採用Raft協議進行多機選主以及對主的請求。當單機掛掉之後，其餘的機器會自動選出新的Leader執行同步任務。

訊息跨單元傳輸

為了很好的支援跨單元資料同步，我們採用了MNS（阿里雲訊息服務），MNS本身是個分散式的元件，無法滿足訊息的順序性。起初為了保證強一致性，我採用訊息染色與還原的方式，具體實現見下圖：

透過實踐我們發現，這種客戶端排序並不可靠，我們的系統不可能無限去等待一個訊息的，這裡涉及到最終一致性的問題，在第3點中繼續探討。其實對於順序訊息，RocketMQ是有順序訊息的，但是RocketMQ目前還沒有實現跨單元的能力，而單純的就資料同步而言，我們只要保證最終一致性就可以了，沒有必要為了保證強一致性而犧牲效能。同時MNS訊息如果沒有消費成功，訊息是不會丟掉的，只有我們去顯示的刪除訊息，訊息才會丟，所以最終這個訊息一定會到來。

最終一致性

既然MNS無法保證強順序，而我們做的是資料同步，只要能夠保證最終一致性就可以了。2012年CAP理論提出者Eric Brewer撰文回顧CAP時也提到，C和A並不是完全互斥，建議大家使用CRDT來保障一致性。CRDT(Conflict-Free Replicated Data Type)是各種基礎資料結構最終一致演算法的理論總結，能根據一定的規則自動合併，解決衝突，達到強最終一致的效果。透過查閱相關資料，我們瞭解到CRDT要求我們在資料同步的時候要滿足交換律、結合律和冪等律。如果操作本身滿足以上三律，merge操作僅需要對update操作進行回放即可，這種形式稱為op-based CRDT，如果操作本身不滿足，而透過附帶額外元資訊能夠讓操作滿足以上三律，這種形式稱為state-based CRDT。

透過DRC的拆解，資料庫操作有三種：insert、update、delete，這三種操作不管哪兩種操作都是不能滿足交換律的，會產生衝突，所以我們在併發級別（主鍵）加上額外資訊，這裡我們採用序號，也就是2中提到的染色的過程，這個過程是保留的。而主鍵之間是併發的，沒有順序而言。當接收訊息的時候我們並不保證強順序，採用LWW（Last Write Wins）的方式，也就是說我們執行當前的SQL而放棄前面的SQL，這樣我們就不用考慮交換的問題。同時我們會根據訊息的唯一性（例項+單元+資料庫+MD5(SQL)）對每個訊息做冪等，保證每個SQL都不會重複執行。而對於結合律，我們需要對每個操作單獨分析。

1）insert

insert是不滿足結合律的，可能會有主鍵衝突，我們把insert語句變更insert ignore，而收到insert操作說明之前並不存在這樣一條記錄，或者前面有delete操作。而delete操作可能還沒有到。這時insert ignore操作返回結果是0，但這次的insert資料可能跟已有的記錄內容並不一致，所以這裡我們將這個insert操作轉換為update 操作再執行一次。

2）update

update操作天然滿足結合律。但是這裡又要考慮一種特殊情況，那就是執行結果為0。這說明此語句之前一定存在一個insert語句，但這個語句我們還沒有收到。這時我們需要利用這條語句中的資料將update語句轉成insert再重新執行一次。

3）delete

delete也是天然滿足結合律的，而無論之前都有什麼操作，只要執行就好了。

在insert和update操作裡面，都有一個轉換的過程，而這裡有個前提，那就是從DRC拿到的變更資料每一條都是全欄位的。可能有人會說這裡的轉換可以用replace into替換，為什麼沒有使用replace into呢，首先由於順序錯亂的情況畢竟是少數，而且我們並不單純複製資料，同時也是在複製操作，而對於DRC來說，replace into操作會被解析為update或insert。這樣無法保證訊息唯一性，也無法做到防迴圈廣播，所以並不推薦。我們看看下面的流程圖也許會更清晰些：

容災架構

根據上面的介紹，我們來看下多中心容災架構的形態，這裡用了兩級排程來保證中心封閉，同時利用自研的同步元件進行多中心雙向同步。我們還可以制定一些快恢策略，例如快速摘掉一箇中心。同時還有一些細節需要考慮，例如在摘掉一箇中心的過程中，在摘掉的中心資料還沒有同步到其他中心的過程中，應該禁掉寫操作，防止短時間出現雙寫的情況，由於我們同步的時間都是毫秒級的，所以影響很小。

結束語

我們的資料同步元件hera-dts已在BU內部進行使用，資料同步的邏輯還是比較複雜的，尤其是實現雙向同步，其中涉及到斷點續傳、Failover、防丟資料、防訊息重發、雙向同步中防迴圈複製等非常多的細節問題。我們的同步元件也是經歷了一段時間的最佳化才達到穩定的版本。

∨ Ansible Docker K8s 如何選擇交付工具？

熱門排行

劇多

多中心容災實踐：如何實現真正的異地多活？