首頁>科技>

雲計算正迎來屬於它的黃金十年。

中國信通院資料顯示,2019年,全球雲計算市場規模達到1883億美元,增速20.86%。預計2023年市場規模將超過3500億美元。在國內市場,2019年雲計算市場規模達1334億元,增速38.61%。其中,公有云市場規模達到689億元,較2018年增長57.6%,規模首次超過私有云。

雲計算歷史性發展的背後,是一部產業變遷史。IT基礎設施從主機時代的集中,到PC時代的離散,雲計算的興起,再一次將IT基礎設施集中化,IT產業似乎也在遵循著“否定之否定”的鐘擺定理。

隨著算力趨於集中,雲計算基礎設施也在經歷新一輪的變化。軟硬一體,一個不甚新鮮的詞彙,在不同時代卻有不同的內涵,雲計算時代的軟硬一體如何演進?

騰訊雲自研伺服器上新,堅定戰略佈局

在騰訊2020 Techo Park開發者大會,騰訊雲重磅釋出星星海首款自研GPU伺服器和星星海新一代自研雙路伺服器,後者也是國內首款搭載第三代英特爾至強可擴充套件處理器(Ice Lake)的雙路伺服器。

早在2019年10月份,騰訊雲就釋出了首款基於AMD平臺的星星海伺服器,持續不斷地釋出自研硬體新品,說明騰訊雲絕對不是“玩票”性質。

星星海首款自研GPU伺服器在設計上實現了全球首創,機框最短,適配主流機架,在同一框架內可以靈活更換主機板,並且支援多平臺相容。同時結合業務對PCIe頻寬要求低的特點,支援16卡GPU+4路intel伺服器,達到業界最高密度,可大幅降低單卡TCO。

星星海新一代自研雙路伺服器率先採用第三代英特爾至強可擴充套件處理器,經測試,星星海新一代自研雙路伺服器透過深度最佳化定製,計算密度提升50%;透過高效能散熱器和研發創新獨立風道設計,散熱方案支援CPU功效提升45%;基於增強的可靠性、可用性和可服務性(RAS)技術,可多維度全覆蓋故障診斷、精細化定位等問題明確故障,使宕機率減少50%。

那麼,騰訊為什麼要做自研伺服器?

騰訊雲伺服器與供應鏈管理部總經理劉裕勳強調,騰訊做硬體從來不會單純的跟風,而是結合自己的實際情況做演進。騰訊伺服器從零到超百萬臺,二十年時間可分為三個時期,2000年到2010年階段的PC網際網路階段,2010年到2016年的移動網際網路階段,以及2016到現在的雲時代。

“現在騰訊走上了自研伺服器的道路,內部架構會逐步趨同,趨同的情況下我們有更好的辦法做更通用的硬體定製,我們要考慮更好的價效比和更穩定的質量。這是騰訊做伺服器的初衷。”劉裕勳說道。

騰訊運營管理部總經理陳鐵鋼也表示,過去伺服器的研發週期長達一年左右,騰訊將所有業務架構的團隊和伺服器團隊集中在一起進行評測,軟體團隊和硬體團隊協同,找到最佳適配的平衡點,從而大大縮短了伺服器的研發時間。

“單純依靠硬體不能滿足業務所有負載,比如高密度伺服器的儲存I/O能力會成為業務瓶頸,騰訊透過提供PaaS平臺解決了這個問題,使用者雖然感知不到,但是已經在享受軟硬一體帶來的好處。”陳鐵鋼說。

軟硬一體,騰訊補充全域性版圖

“2018年‘930’變革之後,開源協同和自研上雲就成為了騰訊未來在技術演進上面大的戰略調整。透過自有業務,比如微信、QQ、廣告、大資料等等海量規模業務上雲,不斷打磨騰訊雲的PaaS和IaaS層面能力,來真正的做到軟硬一體化協同。”劉裕勳介紹。

真正的軟硬一體協同,當然不是隻有伺服器。騰訊式軟硬一體,是以全新自研伺服器產品為核心,圍繞網路、儲存和運維等細分領域提供多樣解決方案,打造面向下一代的雲計算基礎設施。

“雲計算客戶都希望採用低成本、高質量的產品,客戶的需求推動我們去做更多的變革和演進。基礎設施領域不僅是伺服器,還包括資料中心和網路等,騰訊正在系統性推進整體佈局,得益於騰訊的技術變革,在這樣的戰略轉變下大家能夠更好的合作,這也是騰訊能夠把基礎設施做得很好的一種方式。”陳鐵鋼表示。

比如雲網路面臨著效能壓力、運維壓力和可運維性方面的挑戰,對此,騰訊雲透過可程式設計晶片硬體的解決方案使得網路頻寬提升的同時,成本縮減約為原來的三十分之一。

傳統閘道器升級透過冷升級的方式,依賴上聯交換機的hash能力和underlay網路路由收斂時間,而騰訊雲可程式設計晶片硬體解決方案透過單節點熱升級的方式,onl控制面把配置按照資料面格式固化在記憶體存,利用tonfino dma控制器,升級後reload配置,整個熱升級過程可以控制在20ms之內。

而在網路儲存虛擬化軟硬協同方面,騰訊雲推出了下一代容器網路方案。該方案可無縫的支援和存量的雲主機進行相互熱遷移,能快速進行雲主機和容器服務部署,並且依託軟硬體協同實現的高密度彈性網絡卡,支援一個 Pod 獨佔一張彈性網絡卡,不再經過節點網路協議棧(default namespace),極大縮短了容器訪問鏈路,縮短了訪問時延,並使 PPS 可以達到整機上限。

在儲存方面,硬碟容量越來越大,故障率和故障恢復時長也隨之變長,這會對雲上開發帶來很大的穩定性挑戰。為了給開發者提供更為穩健的雲服務,騰訊雲透過對硬碟來料質量,運營監控和技術創新等手段進行智慧化運營。

騰訊雲伺服器運營中心專家工程師牛犇介紹,在來料質量方面,騰訊雲採取基於業務模型的來料篩選機制,透過雲業務模型與硬碟底層引數建模,分析引數統計分佈,定製化篩選標準,使得硬碟年化故障率顯著降低至1/5。在運營監控方面,騰訊雲的硬碟智慧監控系統透過多維度硬碟健康評分和AI故障預測,可使硬碟故障提前識別率提升至80%。

據騰訊統計,硬體故障導致的系統宕機中,記憶體故障佔比排第一。騰訊雲透過最佳化演算法進行記憶體篩選、優選X4顆粒記憶體條、使能多種記憶體RAS特性等方式大大提升了伺服器的可靠性。此外,騰訊雲也是業內首家在雲計算領域大規模研發部署MCA Recovery技術的雲服務商,該技術能夠減少40%以上記憶體故障導致的宕機。

星星海,騰訊ToB必由之路

雲計算行業新的黃金十年,也是普惠發展的十年。新基建、數字經濟、新冠疫情等一系列因素推動雲計算行業競爭愈發激烈,尤其超大規模資料中心的崛起,業務需求倒逼伺服器等產品升級,依靠上一形態的產業鏈分工,已經無法全部滿足當下的客戶需求。

星星海硬體實驗室是騰訊首個硬體工程實驗室,該實驗室專注於硬體系統架構設計和前瞻性基礎技術研究,目前騰訊雲星星海已經發布了多款自研硬體產品,包括四款自研伺服器和一款智慧網絡卡,並且在計算、儲存、網路等全線硬體產品領域申請超過20多項專利。

星星海,取名自青海省果洛藏族自治州瑪多星星海,以水為名,取靈動與智慧之意,頗有網際網路快速創新的意味。

騰訊是全球最大的幾家CSP(內容服務提供商)之一,伺服器保有量規模過百萬,天然有著業務場景的沃土,可以持續不斷的迭代其底層基礎設施,隨著騰訊從CSP轉型雲服務商,這些自研能力自然而然對外輸出。

據瞭解,騰訊目前在新增伺服器中自研比例達到10-15%,未來騰訊雲和騰訊業務對自研伺服器的需求將加快提升。

雲計算承載的業務規模呈現指數級增長,哪怕萬分之一的成本降低或者效率提高,放到騰訊業務上都是肉眼可見的收益,騰訊雲給千行百業帶來的收益更是無法測算。

可以確定的是,未來雲計算的軟硬體一體化技術會進一步發展,企業使用者呼喚更健壯的雲基礎設施平臺,軟硬一體在效能、資源利用率等方面仍有上升潛力。

“雲基礎架構的複雜度對伺服器的質量要求會越來越高,通用伺服器的質量管控無法很好滿足。不論是部件和整機系統的匹配,還有上層軟體的適配,勢必需要騰訊和騰訊雲的團隊,在更加理解底層整機系統包和新興技術協同的基礎上做文章,騰訊不是為做硬體而做硬體,而是騰訊演進過程中必須要走的那一步。”劉裕勳肯定地表示。

海量雲時代,誰能為客戶提供更加穩定、更具價效比的服務,也就意味著獲得了雲計算馬拉松的身位優勢,騰訊雲已行至中途。

21
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 蝴蝶開悟篇6—你的夢想需要別人和你一起實現