首頁>科技>

阿里江湖中,很多資源和技術,如神龍伺服器、OceanBase、POLARDB等等,在開源、自研、雲這三架馬車上形成協同效應,既是內功也是武器。

“不是任何一朵雲都能撐住這個流量。中國有兩朵雲,一朵是阿里雲,一朵叫其他雲。”11月11日晚,阿里巴巴集團CTO行癲(張建鋒)不久前表示。

除雲之外,要深入了解阿里的武功路數,必須知道每個花名背後的武器與絕技。旭卿、觀濤、鳴嵩、日照、褚霸、孤星、龍現、行易、鐳銘,11月18日,在阿里舉辦的“雙11 背後的技術力量”沙龍活動,這9位阿里技術大牛展示了路數,全面解讀雙十一背後的武功祕籍。

整個天貓的成交額是2684億,零點訂單峰值達到54.4萬筆/秒。這是華山論劍的結果。

自研資料庫POLARDB和OceanBase分別處理8700萬、6100萬筆/秒峰值請求、實時計算處理峰值每秒25.5億筆、計算平臺單日處理970PB資料、12億筆物流智慧化等……2019年雙11期間,阿里巴巴打破了諸多技術紀錄。

核心交易系統100%遷移到雲,第三代神龍伺服器定義IT行業新的計算正規化

雙11一個個閃亮的數字的背後有一個比較重要的事情,那就是今年阿里把核心交易系統100%遷移到阿里的公共雲上,這是史無前例的、世界級的挑戰。

要實現100%的遷移,必須提到阿里雲的神龍伺服器。神龍架構負責人的旭卿(張獻濤)介紹,“神龍伺服器是阿里雲近三年來投入巨大的資源,研發的新一代適合雲端計算的計算架構的伺服器,具備高彈性、高穩定和高效能的能力。”

阿里雲從2016年開始投入相關研發,2017年10月釋出了第一代神龍雲伺服器。三年內,阿里雲從自研晶片開始、到自研裝置+Hypervisor、最後成功自研神龍伺服器,打通晶片、軟體、伺服器硬體之間的斷層,首次實現了雲端計算行業效能、資源的零損耗。

阿里雲智慧基礎產品事業部 張獻濤(旭卿)

為什麼阿里雲要研發這樣一個神龍伺服器?

旭卿談到,在過去十幾年間,整個伺服器的架構沒有太大的變化。因此在雲端計算、甚至整個IT系統層面,業界都面臨歷史遺留問題,比如效能損失。

究其根本原因,就是做晶片、伺服器、軟體的廠商之間沒有太多的協同,缺乏一個頂層的設計,每一個領域,每一個廠商都是希望把自己的東西做得很強,但做強之後對整體系統效率的提升不一定有幫助,這是我們可以感受到的。

從這個角度來看,我們需要對整個計算架構做一些改變、革新和提升,提升整體的計算效率,這是阿里做神龍最初的初衷。

為什麼是阿里雲做成了這件事?

“規模到達一定程度的時候,才會真切的感受到它是一個需要解決的問題,你可能將來只有10臺、20臺、甚至200臺、2000臺伺服器的時候,資源還跑不滿,在這種情況下沒有太大的動力去投入上億資金解決這樣一個問題,而今天阿里雲的整體規模已經讓我們必須直面這個問題,並且解決這個問題。”旭卿解釋道。

旭卿認為,今天神龍正在定義IT行業新的計算正規化,它不僅僅能實現阿里雲的核心繫統100%上雲,解決虛擬化的效能、資源的開銷,並且也能夠實現軟體、硬體完美融合,它的綜合表現在很多業務場景下都是超越物理機的效能表現。

說到物理機,旭卿還介紹了第三代神龍架構,它可以提供的效能非常高,“我們網路的效能可以做到每秒2500萬PPS的轉發,這個已經是業界標杆的5倍,儲存效能其實也做到了100萬IOPS,是業界標杆的3倍,所以有了這樣一個東西之後,我們承載雙11大促這種業務的話,其實已經比物理機的效能要高很多了。”

“當然最後我們還是認為雲是IT的集大成者,真正的雲端計算廠商有責任也有義務引導今天軟硬體方面的一些創新,回饋未來的IT技術變革打下基礎。”旭卿表示。

AliNLP平臺賦能700多個核心業務,客服AI搭載KAN-TTS技術處理70%問題

在語音和視覺方向,阿里也有所準備。達摩院實驗室的雷鳴就介紹了阿里的客服AI和視覺AI。

這是基於阿里巴巴真實客服人員的聲音定製的電話客服AI,基於今年釋出的新一代語音合成技術——KAN-TTS技術,這個技術可以使語音合成的效果,和真人錄音的接近程度達到97%。阿里通過技術可以把整個定製週期壓縮到20天,錄音週期就2天左右,這有效減輕了人工客服的負擔。

這種AI會不會完全取代人工客服呢?其實,這種AI並不是完全替代人工,而是人工跟AI協同工作。AI可以解決常規問題,剩下30%的問題則需要人工客服來解決,這是一個比較好的人機協同模式。

從資料來看,阿里巴巴AI每天呼叫超過1萬億次,服務全球10億人,日處理影象10億張,日處理視訊120萬小時,日處理語音55萬小時,日處理自然語言5千億句。

達摩院在自然語言處理、智慧語音、視覺計算等領域奪得40多項世界第一,同時自然語言處理在SQuAD機器閱讀評比中精確閱讀率首次超過人類,智慧語音入選MIT Technology Review2019年全球十大突破性技術。這些技術在雙十一的貢獻有以下三個方面。

首先是自然語言處理方面,通過AliNLP平臺,賦能淘寶、天貓、盒馬、國際化等數十個BU的700多個核心業務。雙十一重點支援23個業務方,包括阿里媽媽、阿里雲、小蜜、菜鳥、新零售、天貓精靈等,在雙十一當天,線上呼叫量超過11億。

其次是客服AI,阿里小蜜承接了淘寶天貓平臺97%的線上服務需求,換算過來相當於8.5萬名人工客服小二工作量,其次阿里小蜜今年推出了多項新功能,包括直播小蜜、基於圖片的智慧問答、多樣性文字生成。另外阿里小蜜並不是一個單方向的能力,更多的是綜合了語音、語言、視覺、翻譯等能力,而且小蜜與使用者的互動,已經朝著文字、影象、語音等多模態的方向發展。

在視覺方面,拍立淘日處理圖片10億張,今年雙十一,視覺AI對拍立淘做了技術升級,從一圖一物到一圖多物的升級,比如之前只識別一個元素,到今天全身穿搭一次性識別,而且這個技術在計算機視覺領域頂級會議上ICCV 2019上贏得一個冠軍。

飛天大資料平臺和飛天AI,以技術實現商品和消費者最優匹配

AI不僅幫助商品識別、客服與顧客之間的溝通,同樣,最重要的消費關係中也有大資料和AI的支撐。

阿里雲智慧計算平臺事業部研究員關濤(觀濤)表示,雙十一的挑戰從商務角度看是商品和消費者最優化匹配的問題,往下則是大資料和AI能力的挑戰,

從資料來看,今年雙11資料量達到970 PB,這大概是一個什麼量級?央視網所有的電視劇和新聞節目的資料量是80 PB左右,對比來看,阿里巴巴通過大資料和AI技術分析出來大概是央視資料量的10倍以上。

這樣的資料能力背後的平臺是什麼?就是阿里十年前開始做的飛天大資料平臺。在雙11中,阿里使用了全自研的一整套平臺,平臺包括超過10萬臺規模伺服器叢集,10+資料中心、10EB級別儲存、每天千萬級別的大資料和AI計算作業。

在AI方面,關濤介紹了後臺的流計算系統,它是一個數據實時計算系統,通過實時計算的模式,能夠給系統、商家和消費者非常實時的資料的能力。流計算系統可以通過實時計算和AI預測,支援商家的商業決策。據統計,去年2018年雙十一的時候,這樣的實時推薦給商家的智慧決策,90%都會被商家採用。

實時計算的系統層面,能夠支援TPS、每天有超過萬級別的線上實時在跑,每天處理超過10 Trillions of Records,包括實時分析、實時預警、實時搜尋、線上機器學習、廣告實時推薦,這些都是大資料和AI在做的。

另外,還有飛天AI平臺,通過處理音訊和視訊元素,不僅可以做到千人千面,對於同一件商品,還能提供上千種不同的視訊封面。

20個工程師貸出3000億貸款,網商銀行融合算力、算料、演算法形成核心競爭力

商家能夠上新產品和作出商業決策的一大前提是資金到位,這就涉及到網商銀行的業務了。

“網商銀行其實大家不一定多麼熟悉,我去之前都不清楚在做什麼。”螞蟻金服網商銀行研究員褚霸說到。

網商銀行成立於2009年,前身是阿里小貸。10年後的今天,網商銀行總共貸出去3000億的貸款,而這3000億貸款就是20個演算法工程師完成的。褚霸認為,“20個人就能很漂亮的把這件事完成,我覺得科技是最大的功臣。”

能夠完成這樣一個業績的網商銀行,褚霸卻笑稱其為“傻子銀行”,“因為網商其實是一家銀行,不是做技術的,我們是一個技術的整合者,前面幾位介紹那些技術都是被我們很好的去整合到今天的系統裡面去。”

但其實並不是“傻子”,在新的技術,比如說像雲延伸的技術引入方面,網商銀行其實還是走在前面的。

還有實時反欺詐技術,這樣一整套的技術能夠將不良率做到1%或者更低。從金融風險看,業界不良率是5%。“因為今天我們有各種各樣的大資料,AI的計算能力,還有非常優秀的演算法工程師能夠把這些算力、算料、演算法串聯起來,形成一個比較核心的競爭力。”褚霸解釋道。

在交易中,不可或缺的是記錄交易的資料庫,其中一大重點的POLARDB不容忽視。

阿里雲智慧資料庫事業部資深技術專家曹偉(鳴嵩)介紹了阿里巴巴資料庫發展的歷史,經過三個階段:第一個階段是使用IOE,使用Oracle;到了2015、2016年開始自主研發POLARDB,再到今年100%上雲,所有阿里的核心的交易還有庫存等等業務都會使用POLARDB以及我們的生態,就是物流雲都在POLARDB支援今年雙十一。

鳴嵩介紹道,我們2010年做了去IOE這件事情,2013年開始起我們把所有的Oracle系統下掉,換成AliSQL,今年我們做了POLARDB,而POLARDB在今年雙十一達到8700萬次每秒的這麼一個峰值TPS,在它的背後我們有在VLDB、SIGMOD、ICDE上發表的創新技術。

IOT技術、自動化技術和智慧演算法,實現數字化和智慧化的倉儲物流

而在物流領域,那些我們看的見的包裹中都蘊含著哪些看不見的技術。

雙11的包裹量從1.52億到今年的12.98億,大概提升了8倍,然後雙11包裹籤售破億時間點從原來的9天到今天我們只需2.4天就可以完成一個包裹的投遞。

“今年我們雙11整個備貨量足可以塞滿1000個鳥巢或者16000架A380飛機。菜鳥到現在為止成立了大概6年的時間,這6年其實菜鳥已經把科技塞到未來的每個毛細血管。”菜鳥北京技術中心資深技術專家陳罡(花名:行易)說道。

首先,在包裹產出也就是倉庫上。“菜鳥”用三個技術來達成數字化,即IOT技術、自動化技術和智慧演算法,確保實現數字化和智慧化的倉儲能力。

例如,每年雙十一,倉庫會招收很多臨時工,但因業務熟練度問題,臨時工培訓和熟練完成工作需要耗費大量時間,而今年IOT技術就包含了一個lemo裝置,能夠讓一個臨時工在幾分鐘之內學會怎麼操作,通過這個裝置,臨時工可以在一天之內達到99%的熟練度。

11月12日,阿里巴巴的董事長兼CEO張勇就在倉庫裡,花了5分鐘時間使用了Lemo,他親自點選了一些訂單,並且在10分鐘之內就把整個工作流程做完了。

目前,菜鳥在全國的自動化流水線已經超過了5000公里,自動化裝置比去年增加了50%以上。在無錫還有一個機器人的生產線,在驛站這邊“秒取快遞”技術,自助可以通過刷臉取快遞等一系列的。另外,電子面單使用率超過99%,大幅度的減少了整個中國的物流成本。

綠色資料中心、開放式網路架構、RDMA高效能網路、彈性跨域訪問和自研資料平臺,5項絕技縱橫江湖

以上大多技術,都需要基礎設施去支撐。在基礎設施的人眼中,雙十一是什麼?

阿里雲智慧基礎設施事業部資深技術專家 唐陵波(花名:龍現)談道,“我們認為雙十一就是華山論劍,阿里毫無疑問是世界第一。但是我們認為,所有的武功都不是一天練的,創新的內功和賦能的武器才是我們在華山之巔拿到的利器、基石。”

阿里是怎麼練內功的呢?這就要看阿里綠色資料中心裡一個比較創新的技術,叫液冷伺服器,這個技術在2016年上線了1.0版本,現在是2.0,已經在阿里做了大規模的部署。今年雙十一,液冷技術能夠把每萬筆交易量的耗電量降到2度左右。如果所有的交易都放在液冷上實現的話,雙11當天可以節約15萬度左右的電。

目前,阿里巴巴資料中心已經遍佈了200多個國家和地區。這樣分佈廣泛的資料中心被看作是易筋經一樣的肋骨,是驅動阿里一切商業行為和商業流量的基礎,不僅能夠支援雙十一的峰值而且能夠提供彈性的服務。另外,液冷技術近期將會開源。

練完內功再來看屠龍寶刀,也就是阿里的自研伺服器,它能夠優化阿里應用場景,促進產業生態研進。在儲存場景中,龍現重點介紹了AliFlash,它已經廣泛運用在儲存場景裡面,通過硬體的創新和軟體技術的結合,阿里現在做到了軟體一體化上下的協同設計,在效能和功能上都有突破性的創新。

在阿里百萬級的伺服器規模背後,怎麼讓資源能夠充分利用?龍現說道,“我覺得極致彈性和自動化,是我們能夠支撐這麼大規模的伺服器,放在我們自己的資料中心裡面的一個最重要的原因。”

還有被龍現比作倚天劍的自研交換機,自研交換機就是阿里在網路領域的一個重大的技術創新,實際上是就是網路界的去IOE,它承擔了大部分的核心流量、網路流量,能夠讓大家感知不到網路的減速或“晃動”,使雙11平滑過去。

另外,RDMA網路也是一個重點技術,今年像儲存計算分離之後的雲盤和核心資料庫的核心交易量,在去年的基礎上發展了3倍,所有的這一切就是阿里在資料中心網路裡面做的幾個比較突出的工作。

供應鏈中也蘊含著太極拳。“大家都知道太極拳是以靜制動的,放在企業層面它更多強調的是人的協同。從當初集團決定雙11上雲使用神龍,到最後上線只有兩個月時間,供貨、備貨、測試都非常緊張,但是供應鏈的同事通過優化庫存、優化流程,然後去幫助供應鏈廠商優化資源共享,極大的提高了供應鏈的交付情況,取得了較為滿意的結果,有效的支援了雙11上雲這個目標。”龍現解釋道。

總結來看,支援雲上雙十一的硬核基礎設施,共有5項絕技縱橫江湖,綠色資料中心、開放式的網路架構、RDMA高效能網路、彈性跨域訪問和自研資料平臺。

未來將持續擁抱開源,擁抱雲原生技術,以技術效率提升商業效率

在過去十幾年電商的發展的背後是技術力量的持續發展,電商的發展帶給技術巨大的挑戰,技術的突破和變革也支撐起電商業務規模的不斷壯大和商業場景的拓寬。

阿里巴巴淘系技術部資深技術專家洪海(花名:孤星)談道,我們經歷了系統架構從集中式到分散式,從中心化到去中心化,從私有云到混合雲,今天全面進入阿里雲的公有云的過程。在這個業務的高速發展的過程中,一個個難題放在了技術人的面前,最大的挑戰來自雙十一,在這個巨大的商業盛況的背後是一層層技術的突破。

網路、伺服器、儲存這些基礎設施多年來發生了翻天覆地的變化,微服務,容器化,資料庫等一系列的底層技術和框架的持續演進,帶動了電商技術今天在搜尋,個性化推薦,視訊互動,訊息等各個應用領域支撐和連線著數億消費者。

解決了業務規模增長的技術瓶頸之後成本的問題擺在了阿里人的眼前。為此,電商開始嘗試混合雲的架構,在大促時短時間內租用雲的機器進行擴容,進而形成了雲單元,另一方面又利用離線大資料叢集和線上叢集的錯峰互補,形成了混布技術。在這個階段我容器化技術飛速發展,Pouch容器和Sigma排程系統成為了整個資源管理排程的基石,支撐了數百萬的容器的管理和執行。通過這一系列手段,應對雙十一峰值的計算資源的成本得到了有效的控制。

在成本問題之後,阿里藉助神龍伺服器、雲的彈效能力、秒級擴容技術、雲端一體研發等實現了更有效率和更加開放。

最後,孤星表示,“未來我們將持續擁抱開源,擁抱雲原生技術,全面上雲。通過技術效率的提升推動商業更有效率,生態更加開放,讓技術創造新商業。”

最新評論
  • 1 #

    12306花了多少錢多少精力,一到過節春運網站就崩潰了。最後還是阿里的技術解決了,太諷刺了

  • 2 #

    也就堆硬體,有什麼高科技?

  • 3 #

    希望當天能做到服務不降級,所有功能日常使用,比如取消訂單、退款。

  • 4 #

    騰訊雲已經被甩了幾條街了,哈哈哈

  • 5 #

    需要集齊七顆龍珠才能召喚神龍伺服器嗎?

  • 6 #

    阿里雲 馬雲 其他雲

  • 7 #

    12306每年還向阿里借人

  • 8 #

    頻寬夠大、硬體配置高就行,沒有覺得技術性有好高

  • 9 #

    頂住春晚洪流的百度表示不服。。。

  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • "拼多多現象":淡季逆襲,年活躍買家數達5.363億