2016年底,谷歌TPU團隊的十位核心開發者中的八位悄悄離職,創辦了一家名為 Groq 的機器學習系統公司,是進軍AI加速卡的第100家、是商業化推向市場的第2家,是首家達到每秒1000萬億次運算的公司。如果做對比,那麼它是當前NVIDIA最強大顯示卡效能的四倍。
The Groq Tensor Streaming Processor (TSP) 要求每個核心達到300W,而且他們已經成功做出來了。而且更幸運的是,已將其從劣勢轉變為TSP的最大優勢。
這款TSP是一塊巨大的矽處理器,幾乎只有向量和矩陣處理單元以及快取記憶體,因此沒有任何控制器或後端,編譯器具有直接控制權。TSP分為20個超級通道。超級通道按從左到右的順序構建:矩陣單元(320 MAC),交換單元,儲存單元(5.5 MB),向量單元(16 ALU),儲存單元(5.5 MB),交換單元,矩陣單元( 320個MAC)。
指令流(只有一個)被饋送到超通道0的每個元件中,其中矩陣單元有6條指令,開關單元有14條指令,儲存單元有44條指令,向量單元有16條指令。每個時鐘週期,單元執行操作,並將資料移到超通道內的下一個位置。每個元件都可以從其相鄰鄰居傳送和接收512B。
超級通道的操作完成後,它將所有內容傳遞到下一個超級通道,並接收上方的超級通道(或指令控制器)擁有的所有內容。指令始終在超級通道之間垂直向下傳遞,而資料僅在超級通道內水平傳輸。
在ResNet-50中,它可以在任何批處理大小下每秒執行20,400個推理(I / S),推理延遲為0.05毫秒。Nvidia的Tesla V100可以以128的批次大小執行7,907 I / S,或者以1的批次大小執行1,156 I / S。
但有了 Groq 的硬體和軟體,編譯器就可以準確地知道晶片的工作方式以及執行每個計算所需的時間。編譯器在正確的時間將資料和指令移動到正確的位置,這樣就不會有延遲。到達硬體的指令流是完全編排好的,使得處理速度更快,而且可預測。
開發人員可以在 Groq 晶片上執行相同的模型 100 次,每次得到的結果都完全相同。對於安全和準確性要求都非常高的應用來說(如自動駕駛汽車),這種計算上的準確性至關重要。另外,使用 Groq 硬體設計的系統不會受到長尾延遲的影響,AI 系統可以在特定的功率或延遲預算內進行調整。
這種軟體優先的設計(即編譯器決定硬體架構)理念幫助 Groq 設計出了一款簡單、高效能的架構,可以加速推理流程。該架構既支援傳統的機器學習模型,也支援新的計算學習模型,目前在 x86 和非 x86 系統的客戶站點上執行。
根據官方釋出的新聞稿,該TSP已經作為Nimbix Cloud的加速器面向部分客戶開放。
2016年底,谷歌TPU團隊的十位核心開發者中的八位悄悄離職,創辦了一家名為 Groq 的機器學習系統公司,是進軍AI加速卡的第100家、是商業化推向市場的第2家,是首家達到每秒1000萬億次運算的公司。如果做對比,那麼它是當前NVIDIA最強大顯示卡效能的四倍。
The Groq Tensor Streaming Processor (TSP) 要求每個核心達到300W,而且他們已經成功做出來了。而且更幸運的是,已將其從劣勢轉變為TSP的最大優勢。
這款TSP是一塊巨大的矽處理器,幾乎只有向量和矩陣處理單元以及快取記憶體,因此沒有任何控制器或後端,編譯器具有直接控制權。TSP分為20個超級通道。超級通道按從左到右的順序構建:矩陣單元(320 MAC),交換單元,儲存單元(5.5 MB),向量單元(16 ALU),儲存單元(5.5 MB),交換單元,矩陣單元( 320個MAC)。
指令流(只有一個)被饋送到超通道0的每個元件中,其中矩陣單元有6條指令,開關單元有14條指令,儲存單元有44條指令,向量單元有16條指令。每個時鐘週期,單元執行操作,並將資料移到超通道內的下一個位置。每個元件都可以從其相鄰鄰居傳送和接收512B。
超級通道的操作完成後,它將所有內容傳遞到下一個超級通道,並接收上方的超級通道(或指令控制器)擁有的所有內容。指令始終在超級通道之間垂直向下傳遞,而資料僅在超級通道內水平傳輸。
在ResNet-50中,它可以在任何批處理大小下每秒執行20,400個推理(I / S),推理延遲為0.05毫秒。Nvidia的Tesla V100可以以128的批次大小執行7,907 I / S,或者以1的批次大小執行1,156 I / S。
但有了 Groq 的硬體和軟體,編譯器就可以準確地知道晶片的工作方式以及執行每個計算所需的時間。編譯器在正確的時間將資料和指令移動到正確的位置,這樣就不會有延遲。到達硬體的指令流是完全編排好的,使得處理速度更快,而且可預測。
開發人員可以在 Groq 晶片上執行相同的模型 100 次,每次得到的結果都完全相同。對於安全和準確性要求都非常高的應用來說(如自動駕駛汽車),這種計算上的準確性至關重要。另外,使用 Groq 硬體設計的系統不會受到長尾延遲的影響,AI 系統可以在特定的功率或延遲預算內進行調整。
這種軟體優先的設計(即編譯器決定硬體架構)理念幫助 Groq 設計出了一款簡單、高效能的架構,可以加速推理流程。該架構既支援傳統的機器學習模型,也支援新的計算學習模型,目前在 x86 和非 x86 系統的客戶站點上執行。
根據官方釋出的新聞稿,該TSP已經作為Nimbix Cloud的加速器面向部分客戶開放。