江娛互動是一家新興的遊戲企業,自2018年成立伊始,江娛互動就面向廣闊的全球遊戲市場,透過創造有趣的遊戲體驗,在競爭激烈的遊戲市場佔得一席之地。僅僅2年的時間,江娛互動就憑藉Topwar(口袋奇兵)單款產品躋身中國遊戲廠商出海30強。在“中國遊戲,未來可期”的使命下,江娛互動正在不斷豐富旗下的遊戲品類,希望把更多的快樂帶給全球玩家。
隨著業務的飛速增長,遊戲服務端的系統規模和系統複雜度正在經歷著翻天覆地的變化。幸運的是,江娛互動擁有一支極具戰鬥力的技術團隊,雖然團隊的整體規模不大,但他們一直保持著對前沿技術領域的探索,透過多種手段維持系統架構的技術先進性,以更好地支撐業務需求,並降低IT成本。
在技術架構的多次迭代升級中,有一項非常重要的工作,就是將遊戲場景中通用的業務能力進行抽象,從遊戲主服中進行剝離,沉澱到統一服務層,以模組化的方式同時支撐江娛互動的多個遊戲品類。從主服中剝離出來的業務能力包括賬號管理、IM、內容安全、會員體系、資訊推送、遊戲行為分析等多個方面,這樣做首先降低了遊戲主服的業務複雜度,使主服專注於對核心遊戲場景的支撐。此外,通用的能力可以在多個遊戲品類中得到複用,從而降低研發成本,提升研發效率。
能力拆分和業務耦合度降低,為持續迭代和新技術預研提供了便利,也為江娛互動在雲原生Serverless領域深入探索創造了契機。Serverless架構可以充分發揮計算資源的快速彈效能力,是雲計算的重要發展方向。在遊戲領域,遊戲主服承載著複雜的核心業務邏輯,需要長期執行,並與多個玩家終端進行極低延遲的資料互動,因此仍然需要透過虛擬機器或容器的方式承載。從主服中剝離的遊戲周邊業務場景,就成為了試點Serverless技術架構的首選目標。
江娛互動的線上翻譯新需求線上翻譯業務是最早進行Serverless試點的場景,這和江娛互動的全球化戰略有關。江娛互動的旗艦作品《口袋奇兵》是一個面向全球市場的遊戲,吸引著世界各地的玩家。每次進入遊戲介面,我們都能看到用著不同語言、頂著不同國旗標誌的玩家,愉快的交流著各種和遊戲相關的話題。
在這個業務場景中,透過提供一個簡單的線上翻譯功能,就將全球各地的玩家凝聚到一起,帶來前所未有的使用者體驗。這類簡單易用的設計也是《口袋奇兵》在各大應用市場都能屢獲高分好評,得到玩家的盛讚的原因之一。
對於江娛互動而言,從0到1開發一款包含全球幾十種語言的實時翻譯工具顯然是不現實的。好在遊戲玩家之間的相互交流往往言簡意賅,翻譯的結果並不需要100%準確就能心領神會,反而對於後臺處理的及時性有比較高的要求。像Google Translator這樣的線上平臺已經提供了強大的線上翻譯能力,所以只需要將玩家的請求進行簡單預處理後,就可以把翻譯的工作轉發到第三方平臺來完成。
這是一個非常簡單的功能,但在技術架構的實現上,還是具有一定挑戰的。每個時間段同時線上的玩家數量都不是完全均等的,存在明顯的波峰波谷,當同時線上的玩家數量比較大的時候,就會產生非常大的聊天量。而且聊天量還不會簡單的跟玩家線上數量成正比關係,遇到某些熱點事件的時候,會引發全球玩家的熱議,需要線上翻譯的訊息量也會陡增,這就需要一套可彈性伸縮的架構來處理玩家的翻譯請求。
最初的架構是透過負載均衡SLB和基於EasySwoole框架的PHP應用叢集來實現的。
在這個架構中,透過PHP編寫的主體應用對玩家的翻譯請求進行一系列的預處理,包括符號程式碼的替換以及敏感內容的過濾等,然後轉發到第三方翻譯平臺獲取翻譯結果。這是一套非常被廣泛採用的擁有高併發處理能力的技術架構,在雲計算時代,可以藉助於雲資源的彈性伸縮特性,使整個叢集的吞吐量隨著業務量的變化而動態調整。但基於雲原生的視角來看,這套架構在生產環境大規模執行的時候還是存在一些不完美之處。
1. 維護工作量大。整套系統的維護工作量涵蓋了虛擬機器、網路、負載均衡元件、作業系統、應用等多個層面,需要投入大量的時間和精力來保障系統的高可用性與穩定性。舉一個最簡單的例子,當某個應用例項出現故障的時候,如何第一時間定位故障並儘可能迅速的將其從計算叢集中摘除呢?這些都需要再配合完整的監控機制以及故障隔離恢復機制來實現。
2. 彈性伸縮能力滯後。不論是透過定時任務,還是透過指標閾值(CPU利用率、記憶體使用率等)來觸發彈性擴容,都沒有辦法基於實際請求量精細化管理,在遇到聊天請求密度大陡增的時候,會面臨彈性伸縮能力滯後的問題。即便透過Kubernetes以及預留資源池等技術最佳化,擴容一個新的例項也往往需要幾分鐘的時間。
3. 資源利用率低。滯後的彈性伸縮能力會導致伸縮策略制定得相對保守,造成資源利用率的下降,最直接的表現是增加了資源成本:
基於阿里雲函式計算FC的Serverless方案有什麼優勢?有沒有一種方案能能幫助技術團隊專注於業務邏輯的實現,並可以根據玩家的實際請求量進行精細化的資源分配,從而實現資源利用最大化呢?隨著雲計算的飛速發展,各大雲廠商都在積極探索新的方案,用更加“雲原生”的思路來解決成本和效率的問題,基於阿里雲函式計算FC的Serverless方案就是這個領域的傑出代表。
函式計算FC是事件驅動的全託管計算服務,透過函式計算,開發者無需管理伺服器等基礎設施,只需編寫程式碼並上傳,函式計算會為自動準備好計算資源,以彈性、可靠的方式執行業務邏輯,並提供日誌查詢、效能監控、報警等附加功能,確保系統的穩定執行。
相比傳統的應用伺服器保持執行狀態並對外提供服務的方式,函式計算最大的區別是按需拉起計算資源對任務進行處理,在任務完成以後自動的回收計算資源,這是一種真正符合Serverless理念的方案,能最大化的提升資源利用率,減少系統系統維護工作量和使用成本。因為不需要預先申請計算資源,使用者完全不需要考慮容量評估和彈性伸縮的問題,只需要根據資源的實際使用量來進行付費。
Serverless在遊戲領域的落地實戰對於線上翻譯這樣的簡單業務邏輯實現,從傳統架構遷移到Serverless架構是輕而易舉的事情。江娛互動把每條由玩家發起的翻譯請求當成函式計算的一次任務,拉起對應的計算資源進行處理,任務完成之後自動將資源釋放。因為江娛互動的技術團隊對Java語言的熟悉程度最高,在Serverless改造過程中換用Java語言來實現線上翻譯功能,同時也能充分利用Java系豐富的生態能力。當然,函式計算並不限制使用特定的開發語言,也不侷限於特定的業務邏輯,主流的開發語言都可以非常好的支援。透過Serverless化改造後,線上翻譯業務的系統架構變得更為簡單。
配置了HTTP觸發器的函式可以直接響應玩家發起的請求,並透過彈性可靠的方式排程相應的計算資源進行處理。由於函式計算的任務分配能夠完全匹配前端使用者流量的變化,負載均衡SLB就不再有用武之地,可以從架構中直接移除。同時,長駐執行的應用叢集也不再需要,函式計算平臺能夠快速拉起大量計算資源併發執行任務,並確保整套架構的高可用性。其中,Redis的作用是快取一部分高頻的簡單語句,減少第三方平臺的依賴。這樣的架構簡化給江娛互動技術團隊帶來的最大驚喜,是不再需要進行容量規劃以及彈性伸縮管理工作,讓團隊可以集中精力實現業務需求,並在更多的領域實現業務創新。
相比Node.js等語言,Java例項在初始化以及類載入等方面需要消耗的時間會比較長,儘管函式計算FC已經透過多種最佳化實現計算資源毫秒級拉起,但往往一個Java程式真正投入執行需要幾秒鐘的時間,這對於線上翻譯這樣的延時敏感型業務是一個非常不利的因素。阿里雲提出的解決方案是透過單例項多併發,以及預留例項這兩項技術來解決延遲敏感型業務遇到的問題。
透過單例項多併發,能讓每個拉起的函式計算例項,併發處理多達100個任務,以此減少平均執行時長,節省費用,並降低冷啟動的機率。透過預留例項最佳化,能夠根據函式的負載變化提前分配好計算資源,使系統能夠在擴容按量例項時仍然使用預留例項處理請求,從而徹底消除冷啟動帶來的延時毛刺。
改造後的線上翻譯業務採用完全按需使用計算資源的Serverless架構,能夠充分利用雲計算的彈效能力。在成本方面,由於應用不再需要長期執行對外提供服務,可以讓雲資源的使用量完全匹配實際的業務量的變化,從而實現平均資源利用率的大幅提升。在系統的吞吐量方面,由於函式計算FC能夠在短時間內迅速調集上萬個例項的計算資源,能夠在業務高峰期或使用者請求突增的情況下支撐海量併發,而且不再需要有容量評估方面的前期工作;在系統維護方面,由於不需要預留計算資源,也不需要對底層的軟硬體進行維護,極大地降低了運營成本,讓江娛互動的技術團隊更專注於複雜業務邏輯的實現以及技術創新上。線上翻譯場景中,相比於傳統的架構,基於函式計算FC的Serverless方案可以幫助江娛互聯節省40%以上的IT成本投入。
另外一個讓江娛互動感受到研發效率明顯提升的,是函式計算FC提供的版本與別名管理功能。版本相當於服務的快照,支援使用者為服務釋出一個或多個版本,配合別名機制,可以實現軟體開發生命週期持續整合、持續釋出,並用最便捷的方式實現服務的灰度迭代。
在後續的架構最佳化中,江娛互動將嘗試透過機器學習技術儘可能多的對原始內容進行預處理,以減少對於第三方平臺的依賴。在AI推理領域,依然可以利用Serverless架構的優勢,透過預先訓練好的深度學習模型,在短時間內排程大量計算資源進行大規模並行處理。
線上翻譯場景試點Serverless技術成功後,江娛互動繼續在更多業務領域發掘跟Serverless技術相匹配的場景,在Push推送服務、內容安全、遊戲行為分析等領域都引入了Serverless技術。未來,江娛互動將繼續基於自身的技術特點不斷深入探索Serverless架構,在擁抱新技術的同時充分享受到雲計算的紅利。