首頁>Club>
在 8 月 14 日的 SIGGRAPH 2018 大會上,英偉達 CEO 黃仁勳正式釋出了新一代 GPU 架構 Turing(圖靈),以及一系列基於圖靈架構的 GPU,包括全球首批支援即時光線追蹤(Real Time Ray Tracing)的 GPU 系列 Quadro RTX 8000、Quadro RTX 6000、Quadro RTX 5000,以及 Quadro RTX Server、CUDA10。Quadro 是英偉達的專業級顯示卡,主要面向設計、特效、科學視覺化等視覺計算任務,具有 16T 單精度浮點效能,每秒 10G GigaRays/sec(GigaRays/sec,用來描述光線追蹤效能),每秒 500T OPs 深度學習,支援 NVLink,每秒 100GB,支援每秒 500 萬億張量的操作。
2
回覆列表
  • 1 # 付大毛

    首先,Turing是架構的名稱,它是繼Volta之後Nvidia GPU的下一代演進。Nvidia將圖靈稱為“第八代GPU架構”,但我不確定它是如何達到這個數字的。向後工作,有Volta,Pascal,Maxwell,Kepler,Fermi和Tesla(六代)。然而,在以著名科學家命名架構之前,Nvidia還有六代GeForce架構。我想在2006年引入CUDA核心之前的所有內容都被視為一個“架構”?然而,這並不比英特爾做CPU代的方式更糟糕,所以讓我們繼續前進。

    圖靈的一大驚喜是它將包括Tensor Cores,這是首次在Volta GV100中推出,以及專為加速光線追蹤而設計的新RT Core。目標似乎是實時光線追蹤,這是今年早些時候在GDC上針對Volta GPU展示的。RT核使基於圖靈的GPU能夠“以前一代Pascal生成速度的六倍速度模擬物理世界”GPU。這是最終渲染輸出,但RT Cores的速度可以比Pascal快25倍,並且“速度超過CPU節點的30倍”。

    張量核心更多是已知量。它們提供了密集的計算單元叢集,可用於加速機器學習。Volta GV100包括640個Tensor核心,FP16(16位浮點)工作負載的峰值計算速度高達110 TFLOPS(每秒數萬億次浮點運算)。有了圖靈,Nvidia表示它可以“每秒高達500萬億個張量運算”,儘管這些是INT4(4位整數)運算而不是FP16運算。Nvidia表示,圖靈處理器將擁有多達576個Tensor Core,比Volta低一步,但圖靈處理器仍然應該非常擅長深度學習培訓和推理。

    除了這些新功能外,圖靈還將包括Nvidia CUDA核心的傳統圖形支援。許多人猜測 - 我們在圖靈看到的CUDA核心數量不正確,但Nvidia現在提供了至少兩個數字。新的圖靈GPU最初將達到最高4,608個CUDA核心,比Volta GV100中的最高5,120小一步。較低層產品擁有3,072個CUDA核心,這將是中端GPU的重大升級。Turing SM(流式多處理器)也經過了重新設計,具有並行釋出浮點和整數運算的新功能。這使得Turing的浮點運算(可能是FP32)的最大速度為16 TFLOPS,整數運算的最大速度為16 TOPS。

    16 TFLOPS數字也為我們提供了圖靈GPU上渦輪時鐘的實際目標。執行FP32 FMA操作的4,608個核心(兩個FLOPS)需要1736Mz的時鐘速率才能達到16 TFLOPS。所以忘記傳聞1.5GHz的5,120個核心,或2.5GHz的3,840核心。所有跡象都表明圖靈的時鐘速度與Pascal類似,只有20%的CUDA核心。而且你可以期待Nvidia努力推動RT核心和RTX品牌推廣。

  • 中秋節和大豐收的關聯?
  • 快樂的生活你們是怎麼過的?