首頁>科技>

在今年8月18日,晶片初創公司Cerebras Systems在美國舉行的Hotchips國際大會上,正式釋出了“全球最大”的AI晶片Wafer Scale Engine(以下簡稱“WSE”)。隨後在9月,Cerebras宣佈與美國能源部(DOE)達成合作,將利用WSE進行基礎和應用科學、醫學研究,充分發揮其超大規模AI的優勢。WSE會進駐美國能源部下屬Argonne(阿貢)國家實驗室、利弗莫爾國家實驗室,與傳統超級計算機合作,加速AI工作。

經過了近兩個月的時間,在昨天的超級計算 2019 峰會(Supercomputing 2019 Event)上,Cerebras正式釋出了與美國能源部合作的成果——基於WSE晶片的全球最快的深度學習計算系統 CS-1。Cerebras表示,目前第一臺 CS-1 已經向美國能源部的 Argonne 國家實驗室交付完畢,將投入處理大規模的人工智慧計算問題,比如研究癌症藥物的相互作用。儘管 CS-1 的效能還沒有得到相關驗證,但為大規模人工智慧計算提供了一種新可能。

全球最大的AI晶片WSE:4.6萬mm²,40萬核心!

資料顯示,Cerebras此前推出的全球最大AI晶片WSE基於臺積電16nm工藝,核心面積超過46225mm²,是目前芯片面積最大的英偉達GPU的56.7倍。其內部集成了高達1.2萬億個電晶體,40萬個核心,18Gigabytes的片上記憶體,記憶體頻寬9 PByte/s,fabric頻寬100 Pbit/s,

WSE包含40萬個AI優化的計算核心是稀疏線性代數核(Sparse Linear Algebra Cores, SLAC),具有靈活性、可程式設計性,並針對支援所有神經網路計算的稀疏線性代數進行了優化。SLAC的可程式設計性保證了核心能夠在不斷變化的機器學習領域執行所有的神經網路演算法。

WSE晶片還包含了比迄今為止任何晶片都要多的核心和本地記憶體,並且在一個時鐘週期內擁有18GB的片上記憶體。WSE上的核心本地記憶體的集合提供了每秒9 PB的記憶體頻寬——比最好的GPU大3000倍的片上記憶體和10000倍的記憶體頻寬。由於這些核心和片上記憶體都是整合在單個晶圓上互連的單晶片,核心更靠近記憶體,所有通訊也都在晶片上進行,通訊頻寬高、延遲低,因此核心組可以以最高效率進行協作。

此外,WSE上還使用了處理器間通訊結構Swarm,它以傳統通訊技術功耗的一小部分實現了頻寬的突破和低延遲。Swarm提供了一個低延遲、高頻寬的2D網格,它將WSE上的所有400,000個核連線起來,每秒的頻寬總計達100 petabits。

可以說,WSE是目前效能最為強大的AI晶片。

專為大規模AI計算設計的超級計算系統CS-1

雖然,在人工智慧計算中,晶片越大越好,更大的晶片處理資訊更快,能在更短的時間內得到訓練結果。但是,僅有強大的AI處理器效能還遠不足夠。像WSE這樣的高階處理器必須與專用的軟體相結合才能實現破紀錄的效能。因此,Cerebras專門為這一巨型晶片開發了專門的CS-1系統和軟體平臺,各方面都為加速人工智慧計算專門設計。

Cerebras執行長Andrew Feldman在接受 VentureBeat 採訪時說:“這是從300毫米晶圓中切割出的最大“正方形“。儘管我們擁有最大、最快的晶片,但我們知道,一個非凡的處理器未必足以提供非凡的效能。如果想提供非常快的效能,那麼就需要構建一個系統。而且並不是說把法拉利的引擎放進福斯汽車裡,就能得到法拉利的效能。如果想要獲得1000倍的效能提升,需要做的就是打破瓶頸。”

▲Cerebras執行長Andrew Feldman

據介紹,CS-1系統只有15個標準機架高度,高約26 英寸(約 66 釐米),可以在一個機架中安裝三套CS-1系統。一套CS-1系統的效能就相當於一個擁有1000顆英偉達V100的GPU的叢集,並且CS-1所佔的空間只有其1/40,功耗也只有其1/50。

同時CS-1系統的效能還相當於Google TPU v3系統的三倍還多,但功耗只有其1/5,體積也只有其1/30。

Cerebras表示,與其他系統相比,CS-1的每一個元件都專門針對人工智慧工作優化,可以以更小的尺寸和更少的能源消耗下提供更高的計算效能。

Cerebras執行長Andrew Feldman表示,通過優化晶片設計、系統設計和軟體的各個方面,CS-1目前的效能令人滿意。通過CS-1和配套的系統軟體, AI需要幾個月才能完成的工作現在可以在幾分鐘內完成,而需要幾個星期完成的工作可以在幾秒鐘內迅速完成。CS-1不僅從根本上減少了訓練時間,而且還為降低延遲設立了新的標杆。對於深度神經網路,單一影象的分類可以在微秒內完成,比其他解決方案快幾千倍。

CS-1的功耗及散熱系統

作為全球最大、效能最強的AI晶片,WSE的功耗和發熱也很大,再加上散熱系統的功耗,這也使得整個CS-1系統的功耗進一步提升到了20千瓦。根據官方的資料顯示,WSE晶片的功耗為15千瓦,專門用於散熱子系統(包括風扇、水泵、導熱排等等)的功耗為4千瓦,還有1千瓦損失在供電轉換效率上。

如上圖,CS-1系統的左上角還配備了多達12個100GbE網口,這也意味著CS-1系統可以與執行傳統形式的計算的大型超級計算機進行協同工作。比如,可以將傳統的超級計算機處理後的資料接入CS-1系統進行專門的AI計算處理,從而利用兩種不同型別的計算的優勢來滿足不同的工作負載。同時,CS-1系統還可以通過網路結構擴充套件到多個節點,這意味著CS-1系統可以在更大的組中工作。Cerebras表示,其已經測試了“非常大”的叢集,然後可以在資料並行模式的模型中將其作為單個同構系統進行管理,但官方尚未釋出可伸縮性指標。

整個CS-1系統通過機箱後面的12個電源連線介面獲取電源,然後將電壓從54V降低至0.8V,再將其傳送至晶片。功率流過母板(而不是母板周圍),然後流入處理器,而未指定數量的核心的各個區域各自接收自己所需的電源。Cerebras表示,晶圓級的WSE晶片保持了一致的功率傳輸,並且還實現了片上功率的精細化分配。

如上圖,這是CS-1系統的主系統,這是一個三明治式設計,具有電源子系統,母板,晶片和冷卻板作為一個元件安裝(左)。冷板從歧管向右接收水,然後將冷水輸送到冷卻板表面上的幾個單獨區域。然後,再次從確保一致散熱的小區域抽取熱水,然後將其抽到裝置底部的熱交換器。該交換器由EMI格柵組成,並由採用空氣矯直機的強力風扇冷卻。總體而言,該晶片的執行溫度為標準GPU的一半,從而提高了可靠性。

需要指出的是,所有單個單元(例如6 + 6電源,熱泵,風扇和熱交換器)都是冗餘的,並且可熱交換,以最大程度地減少停機時間和故障。

另外,Cerebras雖然並未公佈WSE晶片具體的執行的時鐘頻率,但是其向外界透露,該晶片的執行時鐘不是非常“激進”,在2.5GHz至3GHz的範圍之間。

已與美國Argonne國家實驗室達成合作

目前,CS-1的第一臺機器已經完成交付。在美國Argonne國家實驗室,CS-1正被用於研究癌症的神經網路的開發,幫助理解和治療創傷性腦損傷,CS-1的效能使其成為AI中最複雜問題的潛在解決方案。

Argonne實驗室是一個多學科的科學與工程研究中心,CS-1可以將全球最大的超級計算機站點比現有的AI加速器效能提升100到1000倍。

通過將超級計算能力與CS-1的AI處理能力結合使用,Argonne實驗室現在可以加快深度學習模型的研發,以解決現有系統無法實現的問題。

“我們與Cerebras合作已有兩年多了,我們非常高興將新的AI系統引入Argonne。”Argonne實驗室的計算、環境和生命科學副實驗室主任Rick Stevens表示,“通過部署CS-1,我們大大縮短了神經網路的訓練時間,使我們的研究人員能夠大大提高工作效率,從而在癌症、顱腦外傷以及當今社會重要的許多其他領域的深度學習研究中得到顯著進步。”

深度學習是人工智慧的一個領域,它允許計算機網路從大量的非結構化資料中進行學習,然而深度學習模型需要大量的計算能力,並正在挑戰當前計算機系統能夠處理的極限,Cerebras CS-1的推出試圖解決這一問題。

Argonne實驗室部署CS-1以加強人工智慧模型的訓練,它的第一個應用領域是癌症藥物反應預測,這個專案是美國能源部和國家癌症研究所合作的一部分,旨在利用先進的計算機和人工智慧來解決癌症研究中的重大挑戰問題。增加的 Cerebras CS-1正在努力支援Argonne擴大,主要提倡先進的計算,這也有望利用AI功能在2021年釋出的Aurora exascale 系統實現百億億次級連線。

美國能源部負責人工智慧與技術的副部長Dimitri Kusnezov在一份宣告中說:“在能源部,我們相信與私企合作是加速美國人工智慧研究的重要組成部分。我們期待著與Cerebras建立長期而有成效的夥伴關係,這將有助於研究下一代人工智慧技術,並改變能源部的運營、業務和任務的形勢。”

Andrew Feldman說:“我認為,我們將在未來五年內迎來一個非常激動人心的職業生涯。我認為,一小群人可以改變世界,這確實是企業家的口頭禪。你不需要一個大公司,不需要數十億美元,只要一小群傑出的工程師就能真正改變世界。我們始終相信這一點。”

仍存在質疑:高昂價格、記憶體過小、演算法瓶頸?

當然,對於這樣一個全新的AI超級計算機系統,許多網友也提出了質疑。

Reddit上針對CS-1的一個討論中,名為“yusuf-bengio”的網友表示,在實際操作中這種“晶圓規模的AI處理器”可能存在瓶頸,比如:價格,製造這樣一個晶片比小型的GPU昂貴得多;記憶體過小,存在延遲或頻寬瓶頸;演算法瓶頸,如果要使用整個晶片,就必須訓練一個極小批量的模型,這反過來會影響準確性。

記憶體的問題也引起了許多網友的共鳴,有網友表示,這個晶片只能用batch_size 1訓練,18GB的靜態隨機存取儲存器(SRAM)直接使得Megatron,T5,甚至是GPT-2這些模型不能使用。

另外,在價格方面,雖然Cerebras尚未公佈SC-1系統的定價,但是據了解將會高達幾百萬美元。

兩大亮點

最後,儘管有質疑,還是再來看看Cerebras公佈的這臺全世界最快計算機的兩大亮點:

1、易於部署的CS-1系統

“ CS-1是一個單一的系統,可以比最大的叢集提供更多的計算效能,還省去了叢集搭建和管理的開銷。”Tirias Research首席分析師凱文 · 克雷韋爾(Kevin Krewell)在一份宣告中表示, “CS-1在單個系統中提供如此多的計算機,不僅可以縮短訓練時間,還可以減少部署時間。總體而言,CS-1可能大幅縮短專案的整體時間,而這是人工智慧研究效率的關鍵指標。”

相比於GPU叢集需要數週或數月才能建立起來、需要對現有模型進行大量修改、消耗數十個資料中心的機器以及需要複雜的專用InfiniBand進行叢集搭建不同,CS-1的搭建使用需要數分鐘。

使用者只需接入標準的100Gb乙太網到交換機,就可以用驚人的速度開始訓練模型。

2、Cerebras軟體平臺

CS-1系統非常易於部署和使用,但是Cerebras的目的不僅是加快訓練時間,還要加快研究人員驗證新想法所需的端到端時間,從模型定義到訓練,從除錯到部署。

Cerebras軟體平臺旨在允許機器學習研究人員在不改變現有工作流程的情況下利用CS-1的效能,使用者可以使用行業標準的機器學習框架(如TensorFlow和PyTorch)為CS-1定義模型訓練。

一個強大的圖形編譯器自動將這些模型轉換為針對CS-1優化的可執行檔案,並提供一組視覺化工具進行直觀的模型除錯和分析。

Andrew Feldman表示: “我們使用開源軟體,並儘可能使程式簡單化。”但是目前所知的是,這個系統既不是基於x86,也不是基於Linux。

最新評論
  • 1 #

    這麼大晶片發熱嚴重,啥東西能震的住,這玩意說白了就是超級加大版的ai晶片沒有多大的技術含量,國內的高科技的公司也能設計,沒必要吹捧,發展思路的問題而已,國內晶片行業主要卡在硬體光刻機這塊晶片設計沒啥問題

  • 2 #

    感覺小國家以後只有種地的份了,可能隨著科技的發展,地都沒得機會種了。

  • 3 #

    不得不提華為了,對比一下,同樣大小功耗的AI都不是華為的對手

  • 4 #

    我們需要彎道超車,AI正是時候。

  • 5 #

    這效能和阿里的含光一個級別了?

  • 6 #

    能比得上華為990的AI功能嗎?

  • 7 #

    國家在人工智慧方面的發展確實非常重視

  • 8 #

    矽晶片 瓶頸難以突破 石墨烯才是最好的

  • 9 #

    老闆,可以掰開賣嗎?我只要一小塊就夠用了

  • 10 #

    我靠,能不能免費學用?

  • 11 #

    有這些某為擁躉別想做大事

  • 12 #

    歎為觀止,不可想像。

  • 13 #

    外行人士天天看都是第一,不知道哪個真哪個假。

  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 緩解技術焦慮?京東投入了130億