“不管是在今天 GPU 能夠做的事情上,還是 GPU 不能做的事情上,IPU 都有它的價值點和價值定位。” 日前,在英國 AI 晶片初創公司 Graphcore 中國區的媒體溝通會上,Graphcore 高階副總經理兼中國區總經理盧濤和 Graphcore 中國工程總負責人、AI 演算法科學家金琛,就 Graphcore 的新產品效能以及該公司在中國的落地策略向 DeepTech 等媒體進行了同步。
溝通會上,Graphcore 解讀了其於本月公佈的大規模系統級產品 IPU-M2000 的應用測試資料。公佈資料顯示,在典型 CV 模型 ResNet、基於分組卷積的 ResNeXt、EfficientNet、語音模型、BERT-Large 等自然語言處理模型以及 MCMC 等傳統機器學習模型中,IPU-M2000 在吞吐量、訓練時間和學習結果生成時間方面都有較好表現。比如,在 IPU-M2000 上 EfficientNet 的吞吐量達到 A100 的 18 倍。
圖 | IPU-M2000 與 GPU 的吞吐量、訓練及結果生成時間對比(來源:Graphcore)
此前,IPU-M2000 與 Graphcore 第二代 IPU 處理器 GC200 已於今年 7 月 15 日釋出。據介紹,GC200 晶片基於臺積電的 7nm 工藝製造,整合 250 TFlops AI-Float 算力和 900MB 處理器記憶體,相較第一代產品效能提升 8 倍。而對於第三代 IPU,盧濤在此次溝通會上並未透露釋出的具體時間表,不過他表示下一代產品正在研發中,將依舊重點解決儲存問題。
支援 PyTorch、TensorFlow,在 IPU 與 GPU 間無縫銜接另外,Graphcore 還發布了 Poplar SDK 1.4 版本和 PyTorch 的 IPU 版本。
Graphcore 對 Poplar SDK 1.4 版本在易用性和速度上進行了最佳化,能夠支援模型和資料並行,同時能夠實現模型的橫向擴充套件 —— 從 1 個 IPU 橫向擴充套件到 64 個 IPU。金琛表示,下一版本的 Poplar SDK 有望實現橫向擴充套件到 128 個 IPU。
值得關注的是,除支援 Graphcore 的自研框架 PopART 外,Poplar SDK 1.4 還支援 Facebook 的 PyTorch 框架、以及 Google 的 TensorFlow 框架。
據金琛介紹,Graphcore 在 PyTorch 程式碼中引入了 PopTorch 輕量級介面,透過這一介面,使用者可基於當前的 PyTorch 模型進行封裝,以實現 IPU 和 CPU 之間的無障礙銜接。
對於實現這一功能的核心技術,金琛做進一步解釋說,Graphcore 採用 PyTorch 裡的 jit.trace 機制對計算圖進行編譯,轉化為 IPU 和 PyTorch 相容的表達格式,最後用 Graphcore 自研框架 PopART 後端的 audiff 功能自動生成反向圖,便可以實現同一個模型在不同平臺的無差別執行。
目前,PyTorch 因其直觀易懂、靈活易用等優勢受到開發者的廣泛喜愛和應用。Poplar SDK 1.4 增加了對 PyTorch 的支援,策略上是希望使用者在 IPU 上也能體驗 PyTorch,讓使用者多一個轉戰 IPU 的理由。不過目前英偉達的 GPU 已經在 AI 計算領域佔據大部分市場,此時 IPU 能夠提供的價值、轉場到 IPU 的成本等,都是使用者所要考慮的問題。
在遷移成本上,盧濤表示,經過幾年來對 Poplar SDK 的打磨,現在從 GPU 到 IPU 的軟硬體遷移難度已經比大家認為的小得多。
金琛補充道,在訓練上,針對一個不太複雜的模型,一般一週可以遷移完成,對於複雜的模型大概需要兩週;在推理上,基本上是 1-2 天的工作量。
談及效能,盧濤表示:“IPU 在訓練推理、語音、影象模型處理上基本全面超越 GPU。” 不過他也坦言:“不能說 100% 超越了 GPU,因為演算法模型確實非常多,比如說語音有不同的語音模型、影象也是有不同的影象模型。”
未來:持續最佳化效能,進一步壓縮遷移成本IPU 在機器學習效能上的明顯優勢是不可否認的,但前有身強體壯且努力奔跑的巨頭英偉達,Graphcore 更是一刻也不容懈怠。盧濤在溝通會上也多次提到,“目前 Graphcore 面對的壓力最主要還是來自英偉達”。
“重壓” 之下,Graphcore 短期內的計劃是聚焦在資料中心高效能訓練和推理市場上,持續打磨 IPU 和軟體平臺,持續最佳化效能和提高可用性。盧濤說,“只有在我們聚焦的領域跑得更快,Graphcore 和英偉達之間的距離才會越來越短,甚至在某些領域超過英偉達”。
他還表示,Graphcore 希望未來數年內,能在資料中心的 AI 訓練、推理批次部署、以及發貨和體量上做到除英偉達以外的另一個頭部地位。
為實現該目標,Graphcore 也將從增加 AI 框架支援、以及模型覆蓋兩個維度著手,以期進一步減少使用者的遷移成本。此外,除目前 AI 應用最廣泛的網際網路和雲計算兩個場景外,盧濤表示公司明年還將在金融、汽車、智慧醫療、智慧教育、智慧城市和政府服務等領域,至少突破一到兩個比較主流的領域。