沒錯,英偉達GTC大會又來了,不過這次沒有老黃,背景也不是他家的廚房。
本次GTC20中國線上大會由首席科學家BillDally首先發表主題演講,回顧了NVIDIA這一年的成就和產品。
Bill Dally 先後獲得弗吉尼亞理工大學電氣工程學士學位、斯坦福大學電氣工程碩士學位和加州理工大學計算機科學博士學位。他在斯坦福大學任教12年後,於2009年加入 NVIDIA 擔任首席科學家。
同時他還是美國國家工程院院士,美國藝術與科學學院院士,IEEE 和 ACM 院士,獲得了2004年美國 IEEE計算機協會 Seymour Cray 計算機工程獎和2000年美國計算機協會 Maurice Wilkes 獎。
以下是他的主題演講精選:
關於Ampere架構、A100和黃氏法則的一切
所有一切的基礎都是硬體,但硬體本身是不可以解決難題的,需要藉助軟體來整合強大的計算應對複雜的問題。
自2006年以來,研發人員一直在使用CUDA來充分利用GPU的強大功能,為了方便人們在CUDA上構建應用程式,英偉達還提供了一整套的開發庫。例如,如果需要用到線性函式,可以使用cuBLAS和cuSPARSE等庫。
NVIDIA A100,不僅是世界最大的7nm晶片,具有540億個電晶體,相比上一代有了很多的創新。在第三代Tensor Cores中,增加了對於新資料型別TF32的支援,使用TF32進行訓練,可以獲得156 teraflops的效能。
最讓Dally興奮的是,Ampere破解了如何利用神經網路的稀疏性來獲得更好的效能。如果需要縮減它的計算能力,MIG(多例項GPU)還可以將一個A100分解為7個獨立的GPU,以便每個GPU都能執行各自的任務。
如果需要擴充套件Ampere來解決更大規模的問題,第三代的NVLink和NVSwitch是一個很好的選擇,相較於上一代產品有兩倍頻寬的提升,GPU資料傳輸的頻寬可以達到600GB/s。
事實證明,大多數神經網路都是可以修剪的。Dally在2015年的NeurIPS大會上發表了一篇論文,證明了可以對神經網路進行修剪,切斷神經元之間70%—90%的連線,這就意味著將這些神經元的權重設定為0,並不會影響精度。
這種壓縮的效果是立竿見影的,既然權重設定為0,就無需儲存,Ampere透過結構化稀疏性(允許4個權重中的兩個為0)來優化了這個問題。對於矩陣乘法,一旦將權重稀疏為2/4模式,就可以實現雙倍的效能。
與此同時,Ampere技術的真正優勢在於,它不僅在深度學習方面表現出色,在高效能計算方面也有不俗的表現。
在11月舉行的超算TOP500榜單中,採用NVIDIA技術的超算在前10名中佔了8位,Selene超算在TOP500和Green500中都排名第五。
下面這張圖表展示了從2012年的Kepler,一直到今年5月份的Ampere A100,單晶片推理效能提高了317倍。
這就是「黃氏法則」——推理效能每年翻一倍。「摩爾定律」之後,就是它來提升計算效能。此表上只有3代製程技術,從Kepler架構28nm,到16nm,再到最近Ampere是7nm。這主要得益於架構的改進,而Tensor core的改進,更最佳化的電路設計與架構,製程技術等發揮的作用不大。
效能方面,Ampere的速度要快2.5倍。相比Google自家的TPU v3和華為,儘管領域不同,但都被Ampere打敗。
在資料中心的推理測試中,差距還是拉開了。
與之前的AI推理方案Turing T4相比,在所有基準測試中,A100的速度都提高了6到8倍,這裡出現的競爭對手只有Intel和Xilinx,Ampere直接碾壓了它們。
另一張圖展示的是邊緣推理基準測試,適用於邊緣伺服器和嵌入式裝置。此次A100,T4,以及使用Tegra晶片的Jetson AGX Xavier的效能數字,如圖所示,英偉達再次橫掃了。
從RTXDI到光線追蹤,英偉達改變的不只是遊戲
NVIDIA的直接照明技術,也即「RTXDI」。
傳統圖形在直接照明下的顯示,燈光在相鄰表面上投射光線不會投射出陰影,但透過RTXDI技術,每個光源都會將其光線投射到相鄰表面上。
投射陰影逼真的奧秘就在光線和物體表面之間,可以使用這種技術支援多達數百萬個光線選擇一種名為「容器重要性取樣」的技術,稱之為ReSTIR,這項技術在SIGGRAPH 2020中釋出,並且現已在NVIDIA圖形產品中使用,它可以產生直接照明的效果。
還有間接照明。
當光線反射到表面然後又反射回你的眼睛或相機,RTXDI會使得光線效果非常逼真。但是光線會多次甚至無限次地反射,為此,NVIDIA給出的解決方案是RTXGI。
上圖的下半部分幾乎都是黑暗的,因為如果沒有間接照明,你就看不到太多物體。這是以一個很好的多速率渲染的例子,因為間接光線不會以極快的速度變化。可以看到圖片的上半部分,間接照明效果非常逼真,在這種情況下幾乎所有的照明都是間接照明,因為只有一點點光線是從窗子照射進來。
另一項能夠讓我們以實時速率渲染更多內容的技術是NVIDIA DLSS或者深度學習超級取樣(Deep Learning Super Sampling)。現在是DLSS 2.0版本,可以提供比1.0更高的效能。
整體流程如下圖所示,首先以某個解析度開始處理影象,將此影象輸入到神經網路中,把它升級到4K。
然後採用經過升級的影象,並將它與在更高解析度下實際渲染的真實資料(16K)進行比較,其中的誤差會進入其中一個DGX SuperPODs 訓練神經網路的loss函式,經過對資料集的特定迭代,可以訓練網路權重來以非常準確的方式生成升級後的影象。
NVIDIA一直在努力解決不穩定的問題。並透過這項技術獲得了非常穩定的影片。
另一件很難做好的事情就是讓網路泛化。NVIDIA透過訓練神經網路讓它在遊戲的每個級別以及各個遊戲中發揮作用。
下圖左側是原生4K,右側是已經升級至4K的1440影象,右上角顯示幀率。
NVIDIA還在努力提高渲染效能以獲得全動態畫質,此外還希望與電影一樣進行基於物理性質的路徑追蹤。
從相機中透射光線,能夠透過一定數量的鏡面反射和折射進行反射,如透過下圖左上角的啤酒杯,當遇到這樣的鏡面反射時,將執行一些漫反射,在每次反射時,使用使用上文中提到的直接照明中的ReSTIR演算法進行多光線取樣,這將會提供極佳的直接照明。
另一項非常棒的技術是降噪。
雖然不能像電影那樣,每個畫素都發射1萬條光線,對於圖形,每個畫素1-10條光線就夠了,但這樣形成的圖形會出現大量噪點,接下來透過降噪和深度學習的降噪就可以清理影象,提升畫質。
之後再經過兩次反射,將停止其中一個RTXGI光探測器以獲得非常精確的間接照明。
除了RTXGI和RTXDI,還可以使用鏡面反射和漫反射的方式實現這些反射。這將用到NVIDIA全新GPU中的RT Core,它大大加速了光線追蹤,首次在實時圖形中進行光線追蹤成為可能。
影象的未來看AI,未來的人類生活也看AI
Dally還回顧了AI發展的歷程,他說到:
「當前的AI革命其實就是由GPU創造的,以深度神經網路為例,有3個關鍵組成部分在發揮作用,演算法,即深度神經網路本身,訓練資料,以及執行所需的硬體」。
GPU成就了深度學習,也掌控著深度學習發展的進度。
如下表左側顯示,從AlexNet發展到ResNet短短几年時間裡,對計算機效能的需求提高到了一個數量級以上。如右側所示,自然語言處理網路的發展更快,從BERT到GPT-3速度更快,訓練時間對Peta級別的算力要求也越來越高。
人們可以構建的網路在很大程度上受到訓練網路所能使用的GPU效能的限制。人們想要建立更大的模型,在更大的資料集上進行訓練,但是很受限於在已有的GPU資源上,在可接受的時間內可以訓練到的程度。
接下來,Dally還介紹了深度學習推理的工作流:
此外,Dally還帶來了英偉達在一些行業領域內的應用。
NVIDIA在醫療領域的人工智慧應用是 NVIDIA Clara,這是一套旨在透過GPU加速醫療健康發展的應用。
透過下圖可以瞭解GPU如何從各個不同的時間維度加快醫療健康發展。
其中,Dally 還提到了DeepMind最新發布的「AlphaFold」,此方法將獲取蛋白質的氨基酸序列,例如病毒的基因序列,並能夠藉助人工智慧發現結構,且只需幾分鐘時間,速度大大提升了。
藉助深度學習,NVIDIA構建了能夠感知環境並與環境互動的機器人。正在開發的一項技術名為「黎曼運動策略」,本質上能夠從數學角度簡化這一複雜運動問題的表達,便於解決實際問題。在操控方面,除了對機器人抓取特定目標的訓練外,還有對陌生目標的抓取訓練。
在輔助駕駛方面,英偉達藉助雷達和鐳射雷達等裝置的輔助,使得駕駛員在各種情況下都可以對四周的情況瞭如指掌。
也可以檢測各種障礙物,瞭解與物體之間的距離和碰撞時間,採用特定的神經網路來搜尋自由行駛空間。
最後,Dally 還介紹了Legate,無需修改程式碼即可讓Python程式無感執行在Jetson Nano上面,所需要做的就是將原本的import numpy as np 改為 import legate.numpy as np
以下是直播連線,感興趣的小夥伴可以觀看全程完整影片:
https://www.nvidia.cn/gtc/keynote/?ncid=so-wech-54310&sfdcid=CORPENTSO