oogle資料中心之一中的Tensor處理單元(TPU)
在2021年Google I / O大會上,谷歌今天正式宣佈了其第四代tensorflow處理單元(TPU),該公司聲稱可以在接近歷史最好記錄的時間內完成AI和機器學習訓練工作量。谷歌表示,在物件檢測,影象分類,自然語言處理,機器翻譯和推薦基準等工作負載方面,TPUv4叢集可以超越上一代TPU的功能。
TPUv4晶片提供的矩陣乘法TFLOP是第三代TPU(TPUv3)的兩倍以上,其中一個TFLOP相當於每秒1萬億個浮點運算。(矩陣通常用於表示輸入到AI模型的資料。)它還提供了“顯著”的記憶體頻寬提升,同時受益於互連技術的進步。谷歌表示,總體而言,在相同的64晶片規模下,不考慮軟體帶來的改善,TPUv4的效能平均要比TPUv3提升2.7倍。
Google的TPU是專用於加速AI的專用積體電路(ASIC)。它們是液冷的,旨在插入伺服器機架中。交付多達100P(100千萬億次)的浮點計算;並增強Google產品的功能,例如Google搜尋,Google相簿,Google翻譯,Google助手,Gmail和Google Cloud AI API。谷歌 在其年度I/O開發人員大會上宣佈了2018年的 第三代產品,今天早晨揭開了繼任者的序幕,後者處於研究階段。
尖端的表現
根據Google的說法,TPUv4叢集(或者“ pods”)總共有4,096個晶片,其互連頻寬是大多數其他網路技術的10倍。這使TPUv4 Pod可以提供超過數億億美元的計算能力,這相當於大約1000萬臺平均效能達到峰值的膝上型電腦處理器
Google執行長Sundar Pichai在主題演講中說:“這對我們來說是一個歷史性的里程碑-以前要獲得百萬萬億/exaflop的功能,您需要製造定製的超級計算機。” “但是我們今天已經部署了許多這樣的裝置,並且很快將在我們的資料中心中安裝TPUv4,其中許多將以90%或接近90%的無碳能源執行。”
今年的MLPerf結果表明
https://venturebeat.com/2019/06/24/mlperf-introduces-machine-learning-inference-benchmark-suite/
,谷歌的第四代TPU不容小覷。在涉及使用ImageNet資料集對演算法(ResNet-50 v1.5)進行至少75.90%的準確度訓練的影象分類任務中,在1.82分鐘內使用256個第四代TPU完成。這幾乎與768個Nvidia A100圖形卡,192個AMD Epyc 7742 CPU核心(1.06分鐘)以及512個華為AI最佳化的Ascend910晶片與128個Intel Xeon Platinum 8168核心(1.56分鐘)組合在一起的速度一樣快。TPUv3在0.48分鐘的訓練中打敗了TPUv4,但這也許僅僅是因為串聯使用了4,096個TPUv3。
當在大型維基百科語料庫上訓練BERT模型的任務時,第四代TPU的得分也 很高。使用256個第四代TPU進行培訓需要1.82分鐘,僅比使用4,096個第三代TPU進行培訓所需的0.39分鐘稍慢。同時,使用Nvidia硬體要達到0.81分鐘的訓練時間,需要2,048張A100卡和512個AMD Epyc 7742 CPU核心。
谷歌表示,從今年晚些時候開始,雲客戶將可以使用TPUv4 Pod。