首頁>數碼>

上週在ISSCC(國際固態電路會議)上,微軟發表了題為《XboxSeries X SoC: 下一代遊戲機",由硬體工程師PaulPaternoster主講。30分鐘的演講涵蓋了很多關於微軟最新的遊戲機處理器的內容,其中大部分是重複了去年8月在Hot Chips上看到的內容,然而這次演講中有一個新的元素,談到了遊戲機設計團隊如何平衡聲學、功耗、熱效能和處理器的良率,討論了設計中的熱點源自哪裡,以及最終矽片的效能/功耗目標在哪裡得到了最佳化。

XboxSeries X SoC概述:Scarlett專案

首先,我們先來了解一下XboxSeries X內部的處理器,即"Project Scarlett"。Scarlett(斯嘉麗)是基於臺積電N7工藝節點打造的單片系統級晶片。該設計擁有153億個電晶體,裸片尺寸為15.831×22.765m㎡=360.4m㎡。

晶片內部有8個Zen 2移動核心,配置成兩組,每組四個核心,每個核心共享4MB的L3快取,類似於AMD的移動Renoir/Lucienne處理器。這些核心透過可擴充套件資料結構連線到一個定製的基於RDNA 的GPU,能夠達到 12 TFLOPS的峰值效能,實現可變速率著色、光線追蹤和其他新的圖形功能。這個GPU是作為56個計算單元設計的,然而在最終產品中只使用了52個計算單元(後面會有更多介紹)。

記憶體系統採用20×16通道的16GB GDDR6。其中10GB為效能較高的記憶體,可以實現560GB/s的記憶體頻寬,用於遊戲,而另外6GB為效能較低的記憶體,為336GB/s的記憶體頻寬,用於遊戲或記憶體不是限制因素的情況。這樣也可以實現更低的功耗狀態。

影片編解碼的支援,可以實現4K/8K AVC編解碼、HEVC/VP9HDR解碼、AVC/HDR編碼四個顯示平面。三個音訊協處理器可以實現MOVAD(Opus/Vorbis)、CFPU2(頻域處理)和MEC(多通道回聲消除)的Logan IP的計算解除安裝,以消除麥克風的背景噪聲。

硬體安全處理器(HSP)可以實現信任root以及所有加密功能,例如安全的硬體加密金鑰。HSP也是微軟Pluton架構的一部分,我們將在未來幾年內看到使用Windows的現代CPU上出現這種架構。媒體流處理器(MSP)透過AES實現外部媒體裝置的快速加密/解密和雜湊,足以滿足平臺上支援PCIe4.0的外部儲存。微軟表示,與上一代7200RPM硬碟相比,其新的XboxVelocity架構(使用NANDover NVMe加上MSP)可以實現更快的載入時間,同時為尚未以壓縮格式釋出的遊戲節省30-35%的空間。

與上一代產品相比,微軟正在推廣其的新處理器具有一下特徵:

3倍的CPU效能2倍的GPU效能1.7倍的記憶體頻寬2倍的IO頻寬0.9倍的物理音量2.4倍的每瓦效能相同的聲學效能媒體播放的合規性更嚴格

微軟表示,與2013年的晶片相比,這款晶片的功耗增加了15%。

我們認為XboxSeries X的上限功耗是~270。這個功率數字必須覆蓋系統內部的所有東西,所以ScarlettSoC很可能是其中的很大一部分,但不是全部。微軟從來沒有給出過一個官方數字,表示如果不同時描述晶片所處的技術環境,他們不會提供這個數字(來自HotChips問答)。需要注意的是,20通道的GDDR6也會消耗一部分功耗,所以即使系統的功耗是270W,如果我們把系統的大部分剝離出來,Scarlett晶片加上記憶體可能就是其中的225W。16 Gbps的GDDR6通常為每個晶片2.5 W,而這裡採用了10個,這說明記憶體可能是25 W,這樣SoC就有200 W分給CPU、GPU和互連。

不過說了這麼多,在我們對XboxSeries X的評測中,我們從來沒有看到任何接近這麼高的功率。最費力的遊戲(《戰爭機器5》)在整個系統中只達到202 W。

平衡聲學、功耗和熱學

與任何獨立的系統(如遊戲機)一樣,在功耗、熱學和聲學之間找到合適的平衡是一個多維方程,尤其是當更新的系統要獲得更大的功率,而目標是一個更輕薄的系統。這次演講的主持人保羅·帕特諾斯特(PaulPaternoster)解釋說,XboxSeries X的目標是提供具有比上一代產品高15%的TDP,,但體積卻比上一代小20%的產品,同時擁有相同的音響效能。

最終的結果是體積縮小了接近10%,但微軟啟用了三通道並聯氣流設計,結合主SoC和記憶體的汽化室冷卻器,中央機箱氣流擋板,用於冷卻電壓調節器和其他南橋相關IO,以及定製的130mm軸流風扇和三相無刷直流電機,實現了高效能但低聲浪和低維護的特點。

右側是SoC的主要鋁製散熱器,然後在中間是中央機箱的氣流擋板,在左側是系統的其餘部分,包括帶有IO的第二塊PCB。微軟將系統分為兩塊PCB,一塊用於ScarlettSoC,另一塊用於所有與IO相關的連線,以分配熱量並減小佔用空間。這樣的設計唯一需要考慮的問題是,電路板之間的連線性通常會產生較小的功耗,並且交叉板聯結器具有足夠的頻寬。

透過電源管理提高效率

設計新SoC的目標之一就是試圖在儘可能多的不同區域節省功耗。當您收集其中的一些東西時,即使即使是小的1%的節省,累加起來也不容小視。我們已經在AMD處理器上看到了其中的一些功能,而斯嘉麗是當時使用該功能的第一個基於Zen2的SoC的產品。保羅·帕特諾斯特(PaulPaternoster)將節電分為三個關鍵領域:電源監控和調節(〜10%),過程最佳化(〜10-15%)和電源狀態管理(可操作)。

電源監控與調節

在此標題下,Microsoft列出了我們以前從AMD所見過的許多功能,例如數字低壓差穩壓器,動態電壓頻率縮放和直流啟動時間校準。

對於電源監控器,自第一代以來,我們就已經在AMDZen核心上實現了這一功能,它提供了有關核心內部關鍵路徑的更多資訊,從而可以針對給定的工作負載最佳化電壓保護帶。可以與DLDO穩壓器一起使用,該穩壓器提供基於每個核心的電壓控制,而不是基於每個複雜的電壓。就上下文而言,Scarlett使用的基於Zen 2的設計類似於AMD的移動平臺,類似於Renoir,但是AMD直到第二代Zen 2移動產品Lucienne才實現DLDO。DLDO已經在臺式機AMD硬體上使用了至少兩代。

細粒度動態電壓頻率縮放(DVFS)也是我們在臺式機和移動AMD Ryzen處理器上看到的另一個元素,不僅可以更好地控制CPU頻率,而且可以將電源狀態的電壓降低到更接近實際矽片的水平。最低要求。這可以透過降低電壓來最佳化每瓦效能,並與DLDO結合使用,也可以基於每個核心來完成。DVFS與AMD的CPPC2電源狀態控制配合使用效果最佳,但是稍後我們將介紹遊戲機是否依賴固定電源狀態。

晶片低壓差穩壓器(CLDO)在AMD的Zen處理器中並未提及,但微軟在這裡做了重點介紹了,以降低L2/ L3快取的功耗。隨著快取的增大,這顯然變得越來越重要-與移動處理器和Scarlett相比, AMD的桌面處理器的快取是移動處理器的4倍,與Scarlett相比也是如此。然而,這裡似乎有足夠的差異,所以微軟把它包括在演講中,儘管當他們說"每個晶片的電壓"時,我確實想知道他們是否意味著每個四核複合體或每個核心,而不是一個全晶片的值。

這一部分的最後一個是DC-BTC,或者說是電流和電壓容忍度的啟動時間校準。這是在AMD的Bulldozer時代開發出來的,目的是為了在晶片和元器件老化的時候能夠有更嚴格的裕度。隨著元器件的老化,由於電遷移和熱效應,通常需要更高的電壓才能達到同樣的效果。然而,如果沒有老化控制機制,SoC就必須從一開始就人為地提高電壓,稱為"老化裕度",再加上高電壓調節容差。這樣做的缺點是,在較高的電壓下,電遷移會發生得更嚴重,所以透過做某種形式的老化校準,晶片的裕度可以降低,處於較低的功率下,並最終因為較低的電壓而延長壽命。這也有一個連鎖效應,允許更廣泛的電壓範圍,以接受足夠的老化檢測,並降低所需的老化餘量的最終產量。

工藝最佳化

除了設計方面的實現之外,還有在製造過程級別進行的最佳化。正如我們大多數讀者所知道的,製造處理器具有1000種不同的組合方法,尋找正確的組合以使晶片具有最佳效能,最佳頻率,最佳功率或最佳效率,都需要在搜尋空間中找到全域性或區域性最小值。

對於ProjectScarlett SoC,微軟解釋說,他們在製造層面實施了兩種方法,都是與AMD和製造合作伙伴臺積電合作,以獲得更好的產品。工藝再中心化首先是定義所需的電壓和電流最小值,與電晶體的頻率和漏電有關。

第二部分是在該定義的搜尋空間中找到一個區域性的最低電壓,即所謂的Vmin搜尋。

這兩個要素加起來佔了新ScarlettSoC所做的功耗節省的10-15%,而這些都是基於製造的最佳化。這些最佳化可能能夠找到最佳結果的深度往往受限於上市時間(在必須決定一組特定值之前,你能分析多少個搜尋點)和願意投入多少資金。

功率狀態

對於任何給定的系統來說,啟用功率狀態為系統提供了一個關於功率、熱學、聲學以及手頭任務所需效能的視窗。例如,告訴系統在其峰值功率狀態下執行,將盡可能快地完成任何工作負載,但會降低功耗,散熱和聲學效能。

現代臺式電腦經常會在執行中改變電源狀態,而AMD的CPPC2技術允許這些電源狀態在需要效能時成為連續不斷的變化。另一方面,遊戲機則因為系統與遊戲開發者合作的性質,無法使用這個功能。

微軟在系統中定義了許多功率狀態,以便為遊戲、影片播放、下載遊戲更新和其他功能提供合適的效能。系統的每個部分都可以有自己的一套電源狀態。

CPU具有8個電源狀態GPU具有5個電源狀態內部結構具有4個電源狀態GDDR具有3個電源狀態

Microsoft使用這些狀態段來建立特定的遊戲機操作模式,從而使開發人員能夠針對給定的功能和效能進行工作和最佳化,而不是針對現代PC的移動目標。在這些主機遊戲上,以1920x1080解析度獲得最低30 FPS本質上是最低標準,並且如果開發人員知道系統將具有保證的效能水平,,他們就可以按照這些效能數字進行調整。

這是Microsoft告訴我們的操作模式-可能還有更多。在玩遊戲時,每種功率模式都設定為最大,因此係統可以完全訪問所有必要的效能。在影片播放中,基於內容的格式,遊戲機將處於多種不同的操作模式,然後有一些低功耗模式用於後臺和已連線的待機模式。除了這些以外,可能還有其他電源模式,例如2D或獨立遊戲,或者系統檢測到不需要某些效能級別。

解決熱密度和良率

熱密度

保羅·帕特諾斯特(PaulPaternoster)進行的ISSCC演講的內容之一是,與前幾代遊戲機相比,這一代產品在熱密度測量方面有何不同。如Paul所言,過去他曾使用過幾代Xbox處理器,他解釋說,GPU通常是熱密度的限制因素,它限制了平臺的聲學特性。GPU通常對效能有很高的要求,並且歷史上一直是熱點所在。保羅指出,對於XboxSeries X SoC,情況有所不同。

對於Scarlett來說,其實CPU才是成為限制因素的關鍵。使用AMD的高效能x86 Zen 2核心,而不是上一代的低功耗Jaguar核心,再加上游戲工作負載在此後7年的發展,意味著當遊戲工作負載開始提升時,CPU上的雙256位浮點單元就是最高熱密度點發生的地方。

在顯示的這張PPT中,雖然沒有說明這裡是什麼樣的工作負載,是活動的遊戲還是電源病毒,但微軟在CPU端顯示的熱點是87.4ºC,而GPU的熱點只有80.9ºC。現在這也就涉及到硬體的頻率選擇和設計點,以及在CPU功率、GPU功率和整體散熱特性和聲學之間找到合適的平衡點。

微軟表示,因為這種差異,現在CPU是散熱的熱點,所以現在的聲學是圍繞這個點來進行的。作為微軟的測試結果,該公司表示該公司表示CPU對設計的聲學影響不成比例:在聲學預算上,CPU所消耗的每增加一瓦特的成本是GPU的五倍。

我沒有考慮過這是一個有趣的觀點,但這意味著為了達到預期的目標,Microsoft花了一些時間來優化合適的CPU頻率,從而在效能和散熱之間進行權衡。這也是為什麼在啟用同時多執行緒時系統以3.6GHz執行,而在同時禁用多執行緒時可以達到3.8GHz的原因。

解決產量:GPU的影響遊戲機處理器不同於桌面和移動處理器,遊戲機SoC不能按照晶片測試效能來標定對應的型號。而對於任何給定的矽產品的製造,都會存在電晶體效能的變化以及設計中的缺陷。製造工藝的目標自然是提供兩者的最佳狀態!對於一個給定的設計,個人電腦和膝上型電腦中的消費類處理器將被放入不同的"容器"中,並根據電晶體效能分配不同的名稱和數值。相比之下,遊戲機處理器必須具有相同的效能,以滿足最低的效能要求,而不存在分層。遊戲機製造商必須使用一個設計和一個性能點,使生產線上儘可能多的處理器達到該點。這是任何遊戲機處理器的成品率公式的一部分。

上面我們已經介紹了Microsoft在本文中做出的許多設計選擇,其中一些因素會影響效能分層,並確保設計能夠獲得最高的良率。我們尚未具體涉及的另一個因素是GPU。ScarlettSoC物理上具有56個圖形計算單元,但在零售產品中僅使用52個。在ISSCC上的演講花了一些時間探討了這兩種選擇的優點,但最終解釋了為什麼Microsoft選擇52。

Microsoft在這裡談論工作組處理器(WGP),其中包含兩個計算單元和一些共享資源。這意味著全晶片設計具有28個WGP。

PaulPaternoster解釋說,從下線的晶片來看,相當多的晶片可以在啟用全部28個WGP的情況下執行。顯示卡的目標是提供12TFLOPs的效能,因此透過一些簡單的數學計算,微軟可以採用以下任何一種方式來達到這個數字。

在1675 MHz下啟用了28個WGP在1825 MHz下啟用了26個WGP

這兩個配置均啟用12個TFLOP。由於28 WGP設計的頻率較低,因此還可以實現較低的電壓,如果使用所有28WGP,則總功耗可節省20%。

當然,20%的功耗節省是相當可觀的,因為它可以實現更好的每瓦效能,或者實現更高的效能。但問題是,在28顆WGP全部以這個頻率執行的情況下,生產時沒有足夠的處理器下線。由於電晶體效能和缺陷,處理器的可變性意味著28個WGP版本在經濟上沒有意義。

微軟使用的是臺積電最好的僅有DUV的7nm(N7)工藝節點,據稱其缺陷率為每平方釐米0.09個缺陷。

300毫米晶圓的面積為706.86 c㎡每釐米2 0.09個缺陷的缺陷率意味著每個晶圓?64個缺陷斯嘉麗是360.4平方毫米(15.831毫米x 22.765毫米)請注意,SoC是矩形,晶圓是圓形,晶圓晶片計算器顯示,這種SoC尺寸的100%合格率將使每個晶圓147個晶片Microsoft設定頻率/功率,以便如果所有管芯都合格,則可以使用所有管芯缺陷率為0.09 / cm 2時,每個晶片有107個良好的管芯這意味著73%的良率107/147

假設其中一個GPU計算單元或WGP發生缺陷,這個機率非常大,因為GPU是處理器中最大的部分,透過吸收這個缺陷,禁用這個WGP,這個SoC就可以用在遊戲機上,有效良品率就會更高。

當缺陷率為0.09時,這是很好很低的缺陷率,同一晶片上出現兩個缺陷的機率非常小。即便如此,只要選擇只啟用26個WGPs的設計,比全部28個WGPs少兩個,幾乎所有從生產線上下來的管芯都可以使用--有效提高了良品率,使每個處理器的平均成本降低了三分之一。

原文:

https://www.anandtech.com/show/16489/xbox-series-x-soc-power-thermal-and-yield-tradeoffs

9
  • 雙11 神舟放大招,11代i7筆電直降1100?
  • iOS升級新增217種表情符號,你期待嗎?