在即將到來或者說已經到來的人工智慧時代,我們更多的是聽到AI伺服器這一名詞。那麼,究竟什麼是AI伺服器,AI伺服器又為何適用人工智慧時代?
AI伺服器的定義
從硬體架構來看,AI伺服器主要指的是採用異構形式的伺服器,表現形態多為機架式。在異構方式上,可以為CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多種加速卡。
而在其他組成部件上,如記憶體模組、儲存模組、網路模組與傳統伺服器差別不大,主要的提升便是支援更大容量的記憶體滿足當下實時負載增加的需求,提供更多外接硬碟插槽,並廣泛支援NVME/PCIE等SSD,滿足資料洪流需求,網路模組主要表現為頻寬增加。
儘管AI伺服器可以採用多種異構形式,但目前廣泛使用的是CPU+GPU。也因此,業界在談到AI伺服器時,往往將其預設為GPU伺服器。因此,在第二部分中,筆者談到的AI伺服器優勢也主要為GPU伺服器。
AI伺服器的優勢
傳統伺服器主要以CPU為算力提供者。而CPU為通用型處理器,採用序列架構,擅長邏輯計算,負責不同型別種類的資料處理及訪問,同時邏輯判斷又需要引入大量分支跳轉中斷處理,這使得CPU的內部結構複雜。也因此,CPU算力的提升主要靠堆核來實現。
隨著雲端計算、大資料、AI、物聯網等技術應用,資料在近幾年呈指數型增長,IDC統計顯示全球90%資料均在近幾年產生,這便對CPU的處理能力提出考驗,而目前CPU的物理工藝、核心數已接近極限,資料量卻不會停止,伺服器的處理能力必須提升。因此,在AI時代下,僅由CPU做算力提供者的傳統伺服器並不能滿足需求。
不同於CPU,GPU採用平行計算模式,單卡核心數達到上千個,擅長處理密集型運算應用,如圖形渲染、計算視覺和機器學習。經過幾年驗證,搭載GPU的伺服器也被證實的確適用這個時代。
AI伺服器市場現狀
IDC全球半年度人工智慧系統支出指南預測顯示,2019年全球人工智慧系統支出將達到358億美元,相比2018年增加44.0%。同時,人工智慧系統支出到2022年將翻一番達到792億美元,2018年到2020年預測期內複合年增長率(CAGR)為38.0%。
這一數值也意味著,AI伺服器的市場有多廣。也因此,全球幾大伺服器廠商均緊鑼密鼓部署著AI伺服器。
目前,在中國市場上,浪潮的市場佔有率最大,且處於絕對領先地位,份額達到51.4%,曙光和新華三緊隨其後。從行業分佈來看,網際網路當之無愧是AI伺服器的主要使用者。而在GPU上,NVIDIA具有明顯優勢,其Tesla系列產品在AI基礎設施市場佔據主導地位,尤其線上下訓練場景中處於壟斷地位。
而在AI伺服器上,目前效能最強的為浪潮AI超級伺服器AGX-5,AGX-5是專為深度學習和高效能運算的效能擴充套件設計,單機在8U空間裡可以配置16顆NVIDIA Tesla V100 Tensor Core 32GB GPUs,擁有10240個張量計算核心,計算效能高達每秒2千萬億次。