自從國產替代開始逐漸落實,GPU 方面的進展也是日漸明朗,例如大約一週前,天數智芯釋出了代號 Big Island(簡稱 BI)的 7 納米制程 GPGPU,就是其中的佼佼者(見下圖)。
按照天數智芯的官方新聞稿,“BI產品於2020年5月流片、11月回片並於當年12月成功“點亮”。在過去的一個多月中,天數智芯技術團隊進行了一系列硬體、軟體等近百項指標的測試,驗證BI產品的實際功能符合設計標準”,目前來看,進展應該還是比較順利的。
BI 使用臺積電次先進的 7 納米制程生產,電晶體數量為 240 億,採用 2.5DCoWoS 封裝(GPU + HBM ),封裝形式非常類似於 AMD 的的 Vega 20(130 億電晶體,7nm,2019 年 6 月正式釋出)和 NVIDIA 的 GA100(540 億電晶體,7 nm,2020 年 5 月釋出),都是將 GPU 和 HBM 記憶體分裝到同一個基片上。
按照官方的說法,BI 的 FP16 效能大約是 147TFLOPS.
但是這裡有一個問題,那就是這個 FP16 對應的是通用的 FP16 還是針對深度學習的張量計算 FP16,NVIDIA 在兩代之前的產品(Volta)上引入了 Tensor Core 的張量計算核心,專門用於加速深度學習計算,例如現在的 A100(基於 GA100)的 FP16 張量計算能力就是 312 TFLOPS,此外,GA100 支援稀疏化加速,在稀疏化的情況下 FP16 效能可以達到等效 624 TFLOPS。
但是 BI 真正的問題是如何生存。
眾所周知,GPGPU 是從 GPU 衍生的概念,泛指使用 GPU 進行通用計算,這是一個 15 年前就有的概念,它的提出是基於以下幾個原因:
1、GPU 所處的三維加速行業高速發展,天生具備平行計算能力並且搭配有頻寬極高的記憶體;
2、當時的 GPU 開始具備通用計算程式設計能力;
3、GPU 是一個隨處可以找到使用、部署成本都相對較低的晶片型別;
這三點是 GPGPU 提出的基石,簡單來說,就是速度快、可程式設計、用得起,尤其是最後一點,由於 GPU 的銷量幾乎等同於 PC 的銷量,每年都是數以億計的規模,在 21 世紀以來就是推動半導體產業的最主要力量,臺積電很大程度上是靠 NVIDIA 和 ATI/AMD 的 GPU 訂單帶來的龐大利潤來維持工藝不斷提升所需要的鉅額資金,可以說,GPGPU 就是成就 NVIDIA 從量變到質變的經典戲碼。
從中可以看出,GPGPU 的成功,離不開 GPU 的老本行:顯示+三維加速,正是這兩點讓 GPU 的成本得以攤平並維持 GPU 廠商高速成長。
在 GPU 中,通用計算單元是 GPGPU 的最主要算力來源,但是要 GPU 之所以是 GPU,離不開其他單元的密切支撐,例如紋理著色單元、光線追蹤單元乃至影片/紋理編解碼器等等,這其中的技術含量實際上要比通用計算單元更復雜,包含了大量無法繞開的技術壁壘,尤其是諸如光線追蹤等新技術更是一場不亞於 NVIDIA 當年推動 CUDA 的豪賭,贏了天下歸一,輸了底褲都沒。
因此,當國產 GPU 釋出後,我們不僅要關注一些通用計算方面的效能,還應該關注它是不是真正的 GPU,是不是能真正的將研發成本平攤並且維持公司業務的高速成長,這比僅僅是硬體單元的實現,還有軟體驅動以及開發者關係的拓展能力。