幾個月前,初創公司Cerebras推出了史上最大晶片,參見:一片晶圓僅做一顆晶片!史上最大晶片誕生!1.2萬億個電晶體。近日,Cerebras透露了關於此款晶片以及基於此款晶片所設計的系統的更多技術細節,讓我們看一下是如何克服超大晶片所面臨的諸多技術問題的。
摩爾定律的主要驅動力之一是對不斷提高的電路整合水平的需求。通常,有兩種增加密度的方法-利用較小的特徵尺寸(和佈局)或使用較大的基板。英特爾(Intel)、IBM和英偉達(Nvidia)等公司最近推出的晶片,在最近的前沿節點上,往往接近最大的晶片尺寸。現代的EUV光刻步進器的最大場尺寸為26 mm x 33 mm或858mm²。
摩爾定律的主要驅動力之一是對不斷提高的電路整合水平的需求。通常有兩種增加密度的方法——利用更小的特徵尺寸(和佈局)或者使用更大的基底。英特爾(Intel)、IBM和英偉達(Nvidia)等公司最近推出的晶片,在最近的前沿節點上,往往接近最大的晶片尺寸。現在最新的EUV光刻步進器的最大場尺寸為26 mm x 33 mm或858mm²。
以整體的方式(即非拼接)製造更大的常規裸片需要新的工具。但是,有兩種替代方法。晶圓級整合(WSI)是指單片晶片的製造,該單片晶片的尺寸與晶圓本身的最大直徑相同或接近。WSI不是一個新概念。這個想法可以追溯到近半個世紀。也許最引人注目的嘗試是Trilogy Systems,這是Gene Amdahl共同創立的1980年代初創業公司,試圖使用基於ECL的晶圓級模組設計高速計算機。他們在100毫米晶圓上設計了一個晶圓級的“超級計算機”,用於處理6平方釐米的晶片。Trilogy Systems最終屈服於當時的晶圓級光刻技術的經濟現實,到1984年,該公司放棄了自己的努力。1989年,Anamartic,晶片疊層具有20到160Mb的儲存器,使用多達8組150mm晶片,每個晶片集成了202個1Mb儲存器。
自從Trilogy公司放棄努力以來,已經過去了35年了,半導體行業已經經歷了幾十次節點轉換、四次晶圓尺寸轉換,以及在工藝技術方面的知識和經驗上的重大進步,使數百萬個電晶體能夠在每一毫米的矽上製造出來,其產量是幾十年以前所無法想象的。所以也許是時候給它第二次機會了?
Cerebras晶圓級引擎(WSE)
Cerebras Systems在Hot Chips 31上展示了他們的新晶片– Wafer Scale Engine(WSE)-巨大。WSE是一塊單片的半平方英尺的矽片!
Cerebras提出的最大的方形晶片可以用標準的300毫米晶圓雕刻而成。這很重要,因為Cerebras已與TSMC合作,並使用其標準的16奈米工藝來製造這些晶片。
WSE為215mm²,300毫米/√2等於212.1毫米。晶圓片外面超過2.9毫米的部分導致晶片有圓角。
該晶片包括84個相同的管芯,它們以7乘12的網格排列。每個管芯約為510平方毫米,帶有略微超過4,774個整合的微型AI核心。Cerebras表示,出於冗餘原因,還有1-1.5%的額外AI核心,我們將在稍後詳細介紹。擁有84個管芯,每個晶片將擁有超過40萬個AI核心。
這裡有很多內容,我們來總結一下重點。第一部分是核心(core)——一個晶片上大約有50萬個核心。這些核心完全是由Cerebras為AI工作負載設計的。核心是完全獨立的,是完全可程式設計的——它們被設計成獨立地執行自己的指令流,不管周圍發生了什麼。由於該領域正在發展,據說核心設計具有足夠的靈活性,以適應未來可能需要的新功能和新操作。因此,由Cerebras設計的ISA包括通用操作,如載入/儲存、分支和算術,以及一組張量操作。通用操作是標準的CPU操作。除此之外,Cerebras增加了對張量運算元的固有張量運算。換句話說,張量操作碼直接接受2D和3D張量,就像你在傳統CPU上指定暫存器一樣。
作為一種降低功耗的機制,核心還支援硬體內部的稀疏處理。核心執行資料流排程,所有計算都由資料單獨觸發。當它們等待有用的資料時,核心會停止工作,這使得它們可以通過過濾掉稀疏的零資料來消除不必要的處理。在某種程度上,這也是一種效能特性,只要他們能夠跳過資料並繼續進行任何可用的工作。
“大”有可為
由於相當於84個裸片,所以這個數字簡直令人難以置信。這正是Cerebras所希望的——僅僅由於整合的數量,一個巨大的效能提升。看看Nvidia最大的GPU和Cerebras WSE之間的比較,數字是非常令人印象深刻的。
Cerebras提供的完整解決方案
由於涉及的複雜性,Cerebras不僅要設計晶片,而且還必須設計整個系統。這使他們可以將其調整到正確的公差。Cerebras尚未透露完整產品的太多資訊,目前知道WSE將有一個15U的機箱用於WSE,另一個機箱用於電源和其他部件。最終產品旨在像100 GbE上的任何其他網路連線的加速器一樣工作。
WSE比全球最大的GPU Nvidia V100大近57倍。這令人印象深刻,但我們需要退後一步,看看Cerebras實際提供了什麼:一個大型加速器。您不是將單個WSE固定在單個V100上。WSE正在與諸如Nvidia DGX-2等展開競爭。。如果沒有實際的基準測試,就很難判斷WSE與DGX-2的表現如何,但這種比較要現實得多。
晶片結構
在WSE上,所有核心都使用統一的2D網狀結構互連,並強調本地通訊的低延遲。Cerebras使用了完全可配置的結構。該結構依賴於細粒度的單字訊息傳遞(fine-grain single-word message passing)。通訊完全在硬體中完成,從而消除了任何軟體開銷。
這種結構不僅用於裸片之間通訊,而且具有均勻的管芯陣列,Cerebras將管芯間的連線擴充套件到整個劃線隔離區域上的每個相鄰管芯。單個統一的2D網格將所有核心以及裸片之間連線在一起。
Cerebras與TSMC合作,以解決晶片間的連線問題。他們重新調整了劃片槽(scribe line)的用途。在臺積電的幫助下,金屬沉積擴充套件到了劃片槽上,使Cerebras能夠無縫地將2D網格擴充套件到整個裸片上。換句話說,在裸片之間發生的相同通訊在裸片之間進行了擴充套件。在矽片上不到一毫米的距離內驅動訊號直接轉換為晶片間通訊所需的功耗降低了一個數量級。
沒有外部儲存器
WSE與所有其他設計的顯著差異之一是記憶體。WSE沒有外部儲存器。整個儲存器完全分佈在片上SRAM的各個核心中。這與具有大快取的大型NPU沒什麼不同。但是,僅晶片的絕對大小就意味著您可以得到很多。擁有超過400K的處理核心,記憶體超過18 GiB,記憶體頻寬為9 PiB / s。由於所有晶片都在晶片上,因此無需將其全部移入和移出晶片的節能效果非常有利。
Cerebras表示,它已與該體系結構共同設計了軟體堆疊。開發人員可以使用其現有的ML框架,例如PyTorch和TensorFlow。Cerebras軟體將在從框架提取的網路上執行其自己的佈局和路由例程。Cerebras說,每層都根據計算,大小和頻寬需求進行調整。然後,將每一層最佳地對映到整個晶片的一部分上,從而使整個晶片可以立即在整個神經網路模型上執行。
“大” 有缺點,如何克服?
收益怎麼樣?
我們知道每個人在想什麼——他們是如何做出這種事情的?我們假設由於16FF+的成熟度,它在這一點上具有優秀的缺陷密度。但是仍然做不成哪怕一個完美的晶圓片,依然會有單元晶片不良。
答案是“簡單”。Cerebras設計其晶片的每個晶片具有1000個微小核心的原因就是這個原因-能夠以相對較低的成本解決產量問題。冗餘核心和冗餘鏈路都融入了它們的體系結構。出於冗餘原因,每個晶圓都包含約1-1.5%的額外AI核心。值得注意的是,冗餘核心始終保留用於冗餘。換句話說,當在某個區域中沒有缺陷時,只需禁用冗餘核心。在受缺陷影響的區域中,使用本地冗餘核心來替換有缺陷的核心。然後使用冗餘結構連結適當地重新連線本地結構。
熱膨脹和封裝
不幸的是,僅僅獲得良好的成品率是不夠的。對於整個晶圓而言,所涉及的熱量,功率和電流令人難以置信。Cerebras說,矽晶片和PCB之間的熱膨脹僅差增量會導致過多的機械應力,從而導致破裂。
為了解決這個問題,Cerebras設計了一個定製聯結器,夾在矽晶片和PCB之間。聯結器的設計使其能夠在保持操作連線性的同時吸收大部分變化。當晶圓片的邊緣發生極端變化時,需要更加小心地處理。
由於其尺寸太大,也不存在標準的封裝解決方案。最終,該公司為其產品開發了自己的定製封裝,包括PCB板,聯結器,WSE和冷卻板。Cerebras表示,必須開發自己的定製封裝工具和流程,以確保對齊和特殊處理。
散熱和電源
晶圓級引擎很大,這也意味著需要大量電流。依靠傳統的PCB電源平面交付無法正常工作。高電流密度意味著通常的橫向分配系統無法擴充套件到整個晶圓。換句話說,PCB中的銅不足以充分覆蓋整個晶圓。Cerebras在散熱方面也遇到了類似的問題。高熱量集中意味著冷空氣在整個晶圓上流動不足以足夠快帶走熱量。
Cerebras提出的解決方案是採用垂直方式。電流分佈垂直於晶圓完成,避免了原本需要的銅線的厚度。以類似的方式,冷卻水將來自冷板的熱量直接直接輸送到垂直於晶圓片的封裝外。兩種技術都可以使晶圓的功率和冷卻高度均勻地分佈,包括在晶圓的邊緣和中間。
原文連結:https://fuse.wikichip.org/news/3010/a-look-at-cerebras-wafer-scale-engine-half-square-foot-silicon-chip/