首頁>科技>

騰訊雲原生路線圖手冊-封面

騰訊雲原生註冊使用者規模已達100+萬 ,覆蓋政務、金融、教育、電商、遊戲、LBS、IM、媒體、交通、能源、文娛影視等主流行業。

從企業實踐程序看,騰訊雲原生的客戶有從零門檻入手小程式開發的創業者,有從0開始直接部署雲原生服務的創業公司,有從傳統技術棧轉型升級的企業,更有全面擁抱雲原生的網際網路企業,實現雲上生,雲上長,做到Cloud Native。

3個月從0 到1作業幫全面雲原生改造之路專案背景

作業幫是國內領先的中小學線上教育輔導平臺,累計啟用使用者裝置超8億。隨著近年線上教育的迅猛發展,作業幫的 IT 系統面臨巨大挑戰,現有基礎平臺架構已經無法滿足快速增長的業務需求。加之疫情帶來線上教育的爆發式增長,業務對快速釋出、急速彈性、呼叫鏈追蹤,統一的監控日誌平臺,提升計算資源利用率等需求迫在眉睫。

2019年下半年,作業幫開始規劃並調研容器化解決方案。在此期間,騰訊雲團隊和作業幫進行了多次深入的技術交流,同時作業幫也和騰訊雲的其他容器客戶進行了充分交流溝通,多方面了騰訊雲原生技術和騰訊雲的服務質量,最終決定將其部分重要業務遷移到騰訊雲容器服務TKE。

專案挑戰

由於相對特殊的業務場景和自身架構原因,在業務容器化並遷移到 TKE 的過程中,作業幫遇到了許多其它企業未遇到的挑戰。作業幫業務大規模使用Kubernetes原生的負載均衡和服務發現,而Kubernetes在分散的流量排程架構上天然存在瓶頸,容易導致業務負載嚴重不均衡。

另外,作業幫的業務對服務間時延敏感,部分業務連線超時時間設定為5毫秒,無法承受細微系統排程和網路波動,在未經最佳化的核心和網路下,容易引起業務大面積超時。服務間訪問會帶來巨大的DNS併發,極易觸發主機的QOS限速和引起主機的conntrack衝突。

並且由於作業幫容器化改造專案時間緊,必須保證期間業務的平穩安全執行。

騰訊雲原生·容器解決方案

為解決這些挑戰,騰訊雲基於作業幫技術架構的現狀,針對系統核心、Kubernetes 執行時進行了大量的最佳化,與作業幫團隊一起排查架構和程式碼問題。憑藉豐富的容器化遷移經驗,騰訊雲在遷移過程中先後排查和解決的典型問題包括:

解決 IPVS 模式高併發場景下連線複用引發連線異常(對應issue: https://github.com/kubernetes/kubernetes/issues/81775),核心補丁已被Linux社群接受;在高配節點 (核數多) 下 IPVS 規則過多引發網路毛刺問題;大 Pod (佔用核數多,單核佔用高) 在高配節點 (核數多) 場景下,CPU 負載均衡引發網路毛刺的問題等。

此外,騰訊雲團隊還基於tLinux2.4(核心4.14),優化了大量容器場景網路收包軟中斷導致的延遲問題,大幅提升網路效能。同時,結合騰訊雲卓越的網路和儲存能力,以及TKE,EKS 提供的穩定的容器執行時環境,為作業幫提供了整套容器化解決方案。

解決方案架構圖

作業幫將線上業務、大資料離線任務、GPU 業務都進行了容器化改造:

線上業務方面,作業幫開發語言眾多,透過Service Mesh實現多語言的服務治理與服務感知。同時作業幫也有大量GPU服務容器化部署在TKE裡,為提升GPU資源率用率與隔離性,作業幫採用共享GPU模式,並在業務層,透過限制入口流量的方式做了不同pod GPU 使用量的隔離。

由於線上業務和GPU業務的特性,CPU利用率波峰波谷明顯,為進一步提升節點資源率用率,騰訊云為作業幫提供了大資料容器化及在離線混合部署方案;透過EMR on TKE 方案,在不改變作業幫原有yarn 叢集使用模式的前提下,漸進式的將大資料任務排程到TKE線上叢集,並透過tLinux提供的CPU離線排程器,實現離線任務對線上任務的避讓,從而在保障線上任務不受影響的前提下,離線任務充分利用CPU資源。利用EMR on EKS方案,作業幫將緊急的大資料任務或者臨時的計算任務執行在 EKS 彈性集群裡,避免了複雜的資源規劃及儲備工作。

實踐價值

結合EKS彈性容器,騰訊云為作業幫提供了靈活、輕量、安全隔離,具有快速擴縮容能力的容器執行環境。TKE固定資源池 + EKS 彈性資源池的方案,幫助作業幫降低了資源規劃難度,提升了整體資源利用率。

容器化的交付方式,也助力作業幫統一了釋出平臺、監控、日誌等基礎運維平臺,讓原來分散的各個業務技術棧實現了統一的規範化管理,不僅優化了開發運維流程,也大幅提升了作業幫的整體IT運營效率;

透過容器化改造並向騰訊雲容器服務TKE遷移,作業幫同樣業務遷移前後,成本下降43%,介面響應提升10%,穩定性從99.95%提升到99.995%;釋出效率提升兩個數量級,平穩支撐了疫情期間業務爆發式增長,快速迭代、急速擴縮容和多次大型推廣與拉新活動。

關鍵詞:騰訊雲、騰訊雲原生、雲原生、雲計算、容器、作業幫

12
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 微軟模擬飛行2020將支援所有主流VR頭顯