首頁>科技>

在過去10多年中,大資料技術極大改變了企業對資料的儲存、處理和分析方式。現在,大資料技術逐漸成熟,涵蓋了計算、儲存、數倉、資料整合、視覺化、NOSQL、OLAP分析、機器學習等豐富領域。在未來,大資料技術還會往引擎容器化、大資料機器學習、資料湖等方面不斷延伸。

近日,騰訊大資料技術沙龍首站——Angel專場在深圳舉辦,騰訊大資料團隊詳細披露了騰訊大資料十年發展歷程,並全面展示了騰訊第三代全棧機器學習平臺Angel在大模型資料訓練、深度學習、圖計算等方面的技術能力,也深入分享了在微信支付、效果廣告、微眾銀行等場景上的應用案例。

騰訊大資料發展“三部曲”

作為大資料領域的前沿探索者,騰訊大資料從2009年開始, 經歷離線計算、實時計算與機器學習三個階段,在實踐中積累了大量的經驗。

據劉煜巨集介紹,2009年之前,騰訊主要使用傳統的關係型資料庫。2009年開始,傳統的單機資料庫所提供的服務,在系統可擴充套件性、價效比方面已不再適用騰訊業務爆發式的增長。面對這種變化,騰訊大資料轉向分散式,基於開源的Hadoop體系,構建了騰訊第一代大資料平臺,並建設離線計算平臺,主要發力規模化。騰訊大資料由此進入第一階段。三年裡,騰訊實現了從關係型資料庫到自建大資料平臺的全面遷移,到2012年,騰訊大資料的單叢集規模突破了4400臺。

2012年,移動網際網路爆發,應對業務資料統計及時性、快速性的需求,騰訊大資料從Hadoop轉向Spark和Storm體系,在吸收開源技術的基礎上,結合騰訊自身的需求進行重寫,探索流式計算、秒級採集系統的建設,構建企業級的實時資料分析體系,騰訊大資料發展進入第二階段。

2015年至今,騰訊大資料邁入了第三階段。隨著資料探勘、資料應用的深入,騰訊大資料再次自我迭代,於2016年推出了自研機器學習平臺Angel,專攻複雜計算場景,可進行大規模的資料訓練,支撐內容推薦、廣告推薦等AI應用場景。它由騰訊與北京大學聯合研發,兼顧了工業界的高可用性和學術界的創新性。不僅支撐騰訊自身業務需求,在行業上也具有里程碑意義。

從海量業務中來,專注圖計算場景

作為面向機器學習的第三代高效能運算平臺,騰訊Angel在稀疏資料高維模型的訓練上具有獨特優勢,擅長推薦模型和圖網路模型相關領域。當前業界主流的大規模圖計算系統主要有Facebook的Big Graph、Power graph、Data bricks的 Spark GraphX等,但這些系統並不都支援圖挖掘、圖表示學習、圖神經網路的三大型別演算法。

據騰訊Angel開發負責人肖品介紹,騰訊Angel從騰訊海量業務場景中而來,是超大樣本和超高維度的機器學習平臺。從效能上來看,Angel優於現有圖計算系統,能夠支援十億級節點、千億級邊的傳統圖挖掘演算法,百億邊的圖神經網路演算法需求。它可運行於多工叢集以及公有云環境,具備高效容錯恢復機制,也更容易支援新演算法,同時,Angel能夠較好支援圖挖掘、圖表示、圖神經網路演算法,具備圖學習的能力。

現在,Angel已在QQ、微信支付、騰訊廣告、騰訊視訊等騰訊旗下產品中廣泛應用,並向微眾銀行等行業合作伙伴全面開放,普遍適用於智慧推薦、金融風險評估等圖計算業務場景。

到開源中去,積極貢獻社群

釋出僅一年時間,2017年,騰訊Angel就正式開源。2018年8月,騰訊將Angel捐贈給Linux旗下專注人工智慧的LF AI基金會,結合基金會成熟的運營,全面升級的 Angel與國際開源社群深入互動,致力於讓機器學習技術更易於上手研究及應用。

“Angel在2018年加入LF AI基金會進行孵化後,一直按照開源社群的模式進行運營,增長速度非常快,增加了特徵工程、自動機器學習等很多新的功能,在Github上增加了超過2000個Star。” Linux Foundation APAC大中華區總監楊軒表示: “Angel是LF AI基金會下最活躍的專案之一,相信不久的將來,Angel將進入LF AI的頂級專案之列。”

目前,Angel在GitHub上Star數已超過5300,Fork數超過1300,總共有39位程式碼貢獻者,提交了超過2336個commit。

面向未來,大資料、AI和雲的深度融合

騰訊Angel在深度學習和圖計算能力的演變,也與大資料的行業發展方向相契合。據劉煜巨集介紹,未來,騰訊大資料將持續發力資料湖、批流統一(批量計算、流線計算的融合)、AI+大資料、雲端計算+大資料四個主要方向。

劉煜巨集表示:“AI、雲端計算與大資料密不可分,Angel從大資料平臺到全棧機器學習平臺的成長,也驗證了這一行業方向。未來我們將把騰訊大資料的能力和技術,與AI、與雲做深度融合,進一步落地大資料的價值,更好的助力合作伙伴和使用者。”

據了解,騰訊大資料星火計劃是由騰訊發起、面向大資料愛好者的技術共享體系,基於騰訊大資料10年研發與運營經驗,以社群開源、網路課程、線下沙龍、技術峰會等多種形式,充分開放騰訊十多年來在大資料領域的技術積累。本次Angel專場是星火計劃的首次線下活動。

  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • MIUI11再出新招,「限時變磚」模式火了:可以接電話,不能玩手機