摘要:「AI 時代對於我們晶片設計來講是一個激動人心的戰國時代。」
在拍立淘商品庫裡,每天要新增 10 億商品圖片。為了這些巨量的圖片被準確識別,並給使用者正確的反饋,阿里巴巴內部需要 GPU 算力識別 1 小時。成本暫且不提,這個速度對於追求效率阿里似乎還是有些慢了。
在雲棲大會第一天最重要的的主論壇上,阿里雲智慧Quattroporte張建鋒手持一塊寫著「含光」的小黑塊,宣佈使用它識別拍立淘 10 億商品圖片把時間縮減到了只要 5 分鐘。這顆全稱為「含光 800 NPU」的晶片是阿里第一顆人工智慧晶片,已開始應用在阿里巴巴內部核心業務中。
根據阿里方面的測試,「含光 800」這顆主要用於雲端視覺處理場景晶片,已經成為全球效能最強的 AI 晶片。在業界標準的 ResNet-50 測試中,含光 800 推理效能達到 78563 IPS,比目前業界最好的 AI 晶片效能高 4 倍;能效比 500 IPS/W,是第二名的 3.3 倍。成本的下降同樣明顯,大會基於含光 800 的 AI 雲服務上線,相比傳統 GPU 算力,價效比提升 100%。
這顆晶片的釋出是阿里巴巴在 AI 晶片鏈路規劃中「意料之中」的一步。從去年雲棲大會宣佈成立半導體晶片公司「平頭哥」(平頭哥是非洲動物蜜獾,以勇於用小個頭挑戰獅子聞名)開始,阿里就開始在晶片領域陸續釋出產品。但含光 800 的釋出仍然有特別意義——它意味著在整個晶片鏈路的設計上,這家網際網路科技公司已經形成了一個相對完整的閉環。
這也是阿里在雲端計算業務戰略層面繼續高舉高打的重要一步。張建鋒在接受採訪媒體採訪時提到,「我們完全是基於我們未來的判斷,基於我們自己對於行業的佈局來看待這個問題。」
在雲應用生態走向成熟的同時,往硬體基礎設施補課,「節本增效」成為阿里雲看待未來和佈局行業的最新選擇。這同時開始將雲端計算戰場的重心推向一個新的高度——雲端計算不再是單純的業務層面的碰撞,而是從硬體到軟體應用的生態碰撞。其中,作為底層基礎設施的 AI 晶片扮演的角色至關重要,它將進一步影響雲服務的成本和能力。
平頭哥「突圍」
隨著雲端計算的狂奔猛進,雲端計算廠商加入晶片戰局並不難理解。因為目前主流的晶片如 CPU\\GPU,並非訓練基於雲端計算人工智慧最佳的訓練、推斷晶片。這些傳統晶片或許綜合性能不錯,但具體在雲業務場景的支援效率並不十分契合。比如,GPU 架構主要針對影象處理設計,其硬體結構、軟體生態幾乎固化,因此對 AI 任務很難有深度優化。
在雲棲大會現場,阿里雲用自己的雲業務城市大腦實時執行的業務做出了示範。在處理杭州主城區交通視訊時,為了反映該地的交通狀況,40 顆傳統 GPU 一同執行,延時為 300ms,而使用含光 800 僅需 4 顆,延時降至 150ms。
自媒體「量子位」曾將含光 800 與業內主流晶片相比發現,與英偉達最新的 T4 相比,含光 800 是 T4 效能的 15 倍,是應用最廣的英偉達 P4 的 46 倍。
對於雲端計算廠商來說,自研晶片的好處是一目了然的。從業務場景出發,可以減少對晶片廠商的依賴,研發出更適配的產品;長期來看,雖然研發成本極高,但一旦成熟落地,就可以通過規模效應,大幅降低成本。
也因此,自研晶片已經開始成為幾乎每家企業都會涉足的領域。其中,谷歌第一隻吃螃蟹的,它於 2016 年釋出了自研的 AI 晶片 TPU,當年打敗李世乭的 alphago 用的就是該晶片。此後 AWS 也跟隨釋出了雲端 AI 晶片 Inferentia,國內的玩家除了阿里,華為、百度也有推出自研 AI 晶片。
自研晶片難點也是明顯的。張建鋒在接受採訪時稱,一塊成熟的大型晶片研發、釋出週期大致需要兩到三年,「這是一個非常辛苦的一個行業」。平頭哥看起來只用了一年多時間就完成了晶片的研發釋出,但這背後其實仍有諸多「準備工作」。
(圖 | 阿里雲)
一塊晶片背後需要一套龐大的硬體生態支撐,包括處理器 IP、晶片設計平臺等。平頭哥也不例外。過去半年,平頭哥先後釋出玄鐵 910、無劍 SoC 平臺。隨著含光 800 的釋出,平頭哥端雲一體全棧產品系列初步成型,涵蓋處理器 IP、一站式晶片設計平臺和 AI 晶片,最終實現了晶片設計鏈路的全覆蓋。
阿里內部將阿里在晶片全鏈路研發上的優勢總結為「ABCDE」五點,ABC 指的是人工智慧的基礎:
Algorithm——阿里有業內領先的 AI 技術和演算法;
Big data——阿里商業體系中積累的大資料;
Computing——阿里雲安全穩定的計算力;
Domain knowledge——專業領域知識;
Ecosystem——比傳統晶片公司更容易搭建的業務落地生態
雖然研發含光 800 並推出市場只花了一年多時間,但為了聚集起這套「ABCDE」,阿里從開啟雲端計算業務時就可以開始著手準備了。
從 2017 年成立達摩院前,阿里在內部就已經組建了晶片技術團隊,進行 AI 晶片的自主研發。而在 2018 年四月,阿里還全資收購了晶片公司中天微。中天微是中國大陸唯一一家自主嵌入式 CPU IP Core 的公司。此外,阿里還投資了寒武紀、Barefoot Networks、深鑑、耐能(Kneron)、翱捷科技(ASR)等多家晶片公司。
在研發過程中,與傳統晶片廠商的綜合考量不同,平頭哥的演算法團隊研發方向從一開始就從自身業務需求出發。從視訊影象識別、分類、搜尋,到城市大腦等都是平頭哥的業務落地範疇,未來還將應用於醫療影像、自動駕駛等領域。
不難看出,這些業務都是需要大資料和巨量計算的人工智慧業務,雲端計算則是價效比最低的服務提供方。平頭哥半導體公司首席科學家元尊認為,「提供算力之後大大提高計算效率,能真正的把業務的量達到突破」是平頭哥在業務上的重要目標。
不過對於這塊晶片的商業落地方式,阿里雲的選擇和幾乎所有云計算廠商一樣——不賣硬體,只賣算力和服務。戚肖寧將其總結為「軟硬結合,端雲相融」。
晶片「持久戰」
無論在雲棲大會上還是在會後採訪中,包括張建鋒在內的阿里雲管理層都對「含光 800」的釋出表現興奮。因為這塊獨立自主研發的晶片「含光 800」是阿里拿到晶片戰事的重要入場券。
雖然阿里雲已經完整的走過了晶片設計的一整條流程,但這仍然只是個開始。對於晶片戰局的推演,張建鋒認識理性,「晶片是非常複雜的產業」,沒有那麼容易彎道超車。晶片製作完整過程包括晶片設計、晶片製作、封裝製作、測試等多個環節。
目前平頭哥參與的是競爭中最重要也激烈的一環——晶片設計,它將決定晶片潛在的功和功效。目前主流的晶片公司如英特爾、英偉達、ARM 等都是以晶片設計著稱。
值得注意的是,晶片戰場中,技術固然是核心壁壘,但有沒有一個好的應用生態同樣至關重要。作為中天微的前 CEO,戚肖寧就曾在阿里收購公司時感嘆,杭州中天的生態系統與工具同 ARM 相比還不夠全面、成熟,「這是我們的缺點」。
自媒體「半佛仙人」曾在公號中感慨,過去晶片領域,「Intel 的 X86 體系和微軟 Windows 組成的 Wintel 聯盟,只要是 PC 生態,就繞不過他們的技術。ARM 通過授權技術方案霸佔了移動市場,ARM 技術架構是當下移動裝置繞不開的基礎,蘋果華為三星聯發科,都是基於 ARM 的 IP 授權進行研發的,雖然都有自己的核心技術,但終究是執行在 ARM 的規則框架內。」
相比之下,中國過去許多年在半導體領域的缺位,固然與技術先天不足有著重要的關係,但在市場中缺少應用場景同樣是弊因。但云計算和人工智慧給了晶片戰場一個突破口。一個已經成為行業共識的事實是,融合人工智慧的雲端計算一定會成為新的網際網路基礎設施。
(圖 | IDC)
IDC 今年 9 月釋出的《2019-2020 中國人工智慧計算力發展評估報告》顯示,⼈⼯智慧與雲的融合將進⼀步加速,未來五年,AIaaS 市場規模的年複合增⻓率為 66.0%,將成為推動雲端計算市場增⻓的重要細分領域。億歐的《2019 年中國 AI 晶片行業研究報告》則顯示,AI 晶片行業,2022 年將從 2018 年的 42.7 億美元發展至 343 億美元,市場發展空間巨大。
從目前的用途來看,AI 晶片指向的雲端計算和物聯網在未來都有著充滿發展空間,其中物聯網本身也是雲端計算未來發展的重要場景。通過雲端計算的落地場景反向向晶片要能力,又通過商業化鍛鍊晶片能力將幫助包括阿里在那的雲端計算廠商迅速開啟局面,最終形成良性迴圈。
作為晶片領域的新興參與者,這場由雲端計算廠商業務場景推動的晶片發展,包括阿里、華為、百度等雲端計算廠商的入局將很有可能改變整個未來晶片產業格局。
不過,雲端計算廠商研發晶片並不意味著它和晶片廠商就站在截然對立面,晶片廠商的研發實力和成熟生態仍然是雲端計算廠商短期無法企及的,雙方合作和競爭將會是一場漫長的拉鋸。但至少,如阿里巴巴平頭哥首席科學家元尊所說,「AI 時代對於我們晶片設計來講是一個激動人心的戰國時代。」
「平頭哥」們的努力或許還是另外一個突破口。2017 年,中國政府在《新一代人工智慧發展規劃》將 AI 晶片視作整個人工智慧發展戰略的基礎元件,決心加強扶持行業發展,使中國上不再次掉隊。目前來看,在未來晶片的核心戰場中,憑藉雲端計算服務,包括阿里、華為在內的中國廠商已經為中國曾無法深度參與的領域打開了一道口子。