-
1 # 超能網
-
2 # 嘟嘟聊數碼
這次最意外的還是新核心Turing(圖靈)架構和gddr6視訊記憶體居然在英偉達的專業圖形卡上首發,其中的RTX(光線追蹤)技術無疑是這款顯示卡最大的亮點。
儘管是採用了12nm工藝,但是Turing架構仍然比Pascal架構規模大得多,GP102和GP104分別為6組GPC和4組GPC,圖靈架構在刪除了FP64雙精度單元后,新加入了RTX單元用於處理RTX計算,實際上新款Quadro RTX的光線追蹤效能如此之強應該就是歸結於這些專用RTX單元,這和當年Fermi架構推出的“曲面細分單元”似乎有異曲同工之處,但是尚且不知道RTX單元是否也屬於CUDA核心,能否參與常規圖形運算,這些就需要以後NVIDIA提供的技術白皮書來了解了。
最強的Quadro RTX8000所用的GT102核心(暫稱)很有可能就是未來2080TI顯示卡採用的核心,754的核心面積,最高4608個流處理器(很可能給不了這麼多),384bit位寬(也有可能縮減),但是作為遊戲顯示卡,核心頻率和視訊記憶體頻率有望繼續提高,整體單精度運算能力應該仍然在16T左右,比1080TI高出近6T的計算效能。
至於主流高階2080和2070顯示卡,我們可以參照目前最低端的Quadro RTX5000,GT104核心很可能是3072個流處理器,256bit位寬,8G-16G的gddr6視訊記憶體,如果算上更高的核心/視訊記憶體頻率,算力達到12-13T應該問題不大,所以即使是精簡版的2070,其效能應該至少也會和1080TI旗鼓相當,如果算上光線追蹤效能的話,拿自然就是秒殺老卡了。
功耗方面,官方給出的GT102只有225W。GT104只有180w。這麼看並不高,當然這是說的專業卡,遊戲卡如果頻率提升的話,功耗可能還會增加,但是在核心規模增大不少的情況下,能效比仍然不錯。
綜合看來,GTX20這一代顯示卡的效能提升應該不小,儘管工藝僅僅是從16nm升級到12nm,但是這次的Turing架構規模增大了很多,還有RTX和nvlink等技術的引入,難怪黃仁勳稱這是一次堪比當年G80(8800GTX)顯示卡的變革。
8月14日訊,據CNET訊息,8月13日,NVIDIA在SIGGRAPH 2018大會上推出針對專業繪圖市場的首批圖靈(Turing)架構顯示卡Quadro RTX 8000、RTX 6000和RTX 5000。Quadro RTX 8000是全球首款支援實時光線追蹤技術的顯示卡。
回覆列表
雖然NVIDIA正式公佈新一代的GeForce遊戲卡應該要等到下週科隆遊戲展前的“GeForce Gaming Celebration”活動,但是在昨天正式開幕的SIGGRAPH 2018,這場圖形界頂級大會上,NVIDIA是不可能空手到來的,而事實上他們昨晚確實有很多重量級的公佈,包括全新的Turing架構(注意,官博現在還沒有使用任何中文命名),包括第一張專用於光線追蹤的GPU:Quadro RTX,但是我們還是應該從它的根基:新的Turing架構開始說起。
NVIDIA的官方直播大概是早上的8:45結束的,現在還有很多細節沒有公佈出來,所以我們先來看看官方的Newsroom,首先關於Turing架構,NVIDIA對其非常有自信,稱其為自從2006年透過統一渲染架構帶來CUDA後最偉大的飛躍,所以你可想而知NVIDIA對其的期望,或者說野心。新的Turing架構很重要的一點就是混合渲染(Hybrid Rendering)來實現光線追蹤,具體來說包括引入全新的RT Core來加速光線追蹤,還有我們已經在Volta架構看到的Tensor Core來加速AI處理,當然還有光柵化,畢竟現在我們還沒有厲害到能夠拋棄光柵化的程度,所以新的Turing架構是包含多種力量的,而這種包含多方力量來實現光線追蹤的混合渲染,應該會成為日後的關鍵詞。
每次有新架構到來,我們最關心的就是微架構級別的變化:有哪些新增的特性,有哪些精簡的部分,如果說Volta架構我們開始看到Tensor Unit,那麼新的Turing架構當中最重要的就是新引入的RT Core。既然是“RT”,顧名思義就是衝著光線追蹤(Ray Tracing)來的,它的作用是用來加速處理光線在三維環境中的傳播,處理光線的速度是目前Pascal架構的25倍,同時讓GPU作為節點處理最末幀(Final Frame)的效果渲染要比將CPU作為節點的速度快30倍。
同時讓人興奮的是,自從Volta架構開始引入的Tensor Core,我們都知道它能提供遠遠高於傳統GPU的人工智慧、深度學習效能,這部分效能能夠賦予我們的GPU去做很多以往沒有的工作,比如說在Turing架構當中的Tensor Core,能夠在每秒處理500萬億的張量運算,透過這部分效能,我們能實現以往無法奢望的功能,比如說新的基於深度學習的抗鋸齒技術:DLAA(Deep Learning Anti-Aliasing,萬物基於深度計算)。
最後在傳統的架構方面,Turing在我們熟悉的SM單元當中新增整數處理(Integer Unit)單元,以及新的統一快取架構,能夠帶來目前架構兩倍的頻寬。規格方面,Turing架構能夠搭載最多4608 CUDA,並且能夠帶來最高16 TFlops浮點效能。當然這是新發布的三款Quadro RTX顯示卡當中效能最強的RTX 8000而言的。
具體來說,昨晚NVIDIA共釋出三款顯示卡,分別是Quadro RTX 5000\6000\8000,最高階的RTX 8000跟次旗艦的RTX 6000兩張顯示卡在流處理器數量、張量單元數量、光線追蹤效能方面都是一致的,分別是4608 CUDA、576 TC、10 GigaRays,只有視訊記憶體存在差異,RTX 6000是搭載24GB GDDR6視訊記憶體,透過NVLink橋接可以實現48GB視訊記憶體,按照現在16Gb的視訊記憶體來看,也是很誇張的,而RTX 8000的視訊記憶體直接翻倍。“入門級”的RTX 5000則是3072 CUDA,384 TC(Tensor Cores)、6 GiagaRys,16GB GDDR6視訊記憶體。
在流處理器方面,如果是按照Volta V100的架構,那就是每組SM單元包含64 CUDA,即72組SM單元,但是72組SM單元怎麼構成GPC單元呢?過去的Volta V100是每組GPC單元包含14組SM單元,那這裡就是除不盡的,難道NVIDIA還暗藏多餘的SM單元?因為GPC單元肯定是4組、6組、8組的組成,如果是按照6組,就應該是6*14=84組SM單元,就算是按照128 CUDA/SM的構成,要麼每組GPC單元的構成已經精簡,要麼目前的RTX 8000還不是完整架構。
至少就卡本身的規格方面,目前AnandTech已經拿到部分訊息,他們已經做成架構之間的對比,就是RTX 8000分別對比GV 100、P6000、M6000,我們首先能看到在核心面積、電晶體數量、CUDA數量、紋理單元數量方面對比V100的規格是有精簡的(甚至核心面積都變小),頻率提高到1730MHz,視訊記憶體頻率14Gbps,位寬384-Bit,單精度16 TFlops,最後核心代號是尚不清楚的,GT102?現在誰知道呢。