首頁>Club>
手機晶片龍頭高通(Qualcomm)新款旗艦手機晶片已完成設計定案(tape-out),確定將採用臺積電7奈米制程,供應鏈傳出,高通新款手機晶片已經在第四季量產投片,最大的特色是整合類神網路運算單元(NPU)及支援5G, 可大幅提升人工智慧邊緣運算效能,預期包括三星、華為、OPPO、Vivo等非蘋陣營手機大廠均將採用,最快明年第一季終端手機可望上市。
14
回覆列表
  • 1 # 超能網

    隨著麒麟980以及蘋果A12處理器的上市,全球智慧手機處理器已經進入7nm時代,剩下的兩款7nm晶片還有高通驍龍855(新命名可能是驍龍8150)以及三星的Exynos 9820處理器,只不過這兩款處理器相比前兩者要來得慢一些。日前供應鏈訊息稱驍龍855處理器已經完成流片,使用的是臺積電7nm工藝,支援QC 5.0快充,集成了NPU單元,本季度量產,但相關產品最快要到明年Q1季度才能問世。

    高通目前的驍龍處理器主要使用三星的14nm及10nm工藝,前不久釋出的驍龍675處理器則是三星11nm工藝,但在下一代製程工藝上,高通也要轉向臺積電了,而且新一代處理器命名體系也會有重大變化,旗艦級產品會從目前的驍龍800系變成驍龍1000系,其中可以確定的就有智慧手機用的驍龍8150,目前習慣的說法是驍龍855,而另一款則是面向Windows筆記本的驍龍8180處理器,頻率高達3GHz,TDP功耗也高達15W。

    日前供應鏈訊息稱驍龍8150處理器已經完成流片,這意味著晶片已經完成大部分工作,今年Q4季度就會正式量產,不過相關產品上市最快也要到明年Q1季度。雖然沒有明確的釋出時間,不過明年1月份的CES展會是個好時機,高通之前就在CES展會上釋出過驍龍處理器。

    技術方面,驍龍8150處理器除了升級7nm工藝之外,也會加入新技術支援,其中一個就是QC 5.0快充技術,爆料稱QC 5.0的充電功率將從27W提升到32W,從兩路電路變成三路電路,提高充電效率同時控制好溫度。

    此外,驍龍8150處理器還會整合專用的NPU單元,提高AI人工智慧、深度學習等方面的效能,在這方面華為、蘋果的處理器都已經加入了NPU單元。

  • 2 # 漂浮的骷髏頭

    爆肝16小時火速填坑完畢,“課堂筆記”可以刪了。

    15000字長文預警!!!

    臺北時間12月6日凌晨,經過了一天的“預熱”以後,第三屆驍龍技術峰會的“正片”終於開始。

    (——等等,這句話怎麼這麼熟悉,364天了小扁藍你就沒點新詞兒嗎?)

    今天,高通用一場長達138分鐘的演講向大家正式釋出了支援5G的新一代移動平臺——驍龍855。釋出會上,高通重點宣傳了驍龍855相容5G、AI效能提升巨大、影音娛樂體驗出色等特性。

    事實上,855的核心配置和效能早已被曝光個差不多,釋出會透露的關於技術細節上的“意外”,甚至都還沒有“855”這個名字大。不過,這並不意味著855就沒有什麼好解讀的——相反,今天的演講中,無論是花式吊打競爭對手的Keynote(以下根據習慣稱為PPT),還是對SoC各部分分工合作的探索,都包含了極大的資訊量。

    鑑於高通作為一個上游廠商,釋出會一般開得比較早,所以量產版本的855及各種實測資料離我們還很遙遠,所以小扁藍還是遵循一貫的風格,根據紙面特性和資料,進行一次“雲測評”。

    驍龍855:亮點

    這是釋出會上用於總結驍龍855亮點的一張PPT,這諸多亮點,特別是一堆“世界首個”乍一看令人眼花繚亂、讚歎不已。當然,這是PPT的慣用手法,在大洋彼岸H開頭的廠商的PPT中已經見得多了。真解讀起來,筆者認為下面這張PPT要方便得多。

    驍龍855:重要模組

    這張PPT中,驍龍855的亮點可以清晰地劃分為四部分:核心效能(左半部分)、通訊(右上角兩個)、影像處理(Spectra)和安全性(右下角)——當然,安全性方面855似乎並沒有帶來什麼新的亮點,這一塊更像是為了完整而湊上去的,或者說在這張PPT中,它的存在就是它存在的全部意義了。

    高通官網文案對比

    順便我們還可以看看官網的文案——透過與去年驍龍845的文案對比,我們可以看出高通今年的文案更加註重對體驗的宣傳,而不是強調技術引數。其實,這並非高通一家的轉變,隨著移動智慧終端在效能上越來越接近天花板、在功能性上又漸趨完善和均衡,這個行業早就不是可以隨便丟出50%以上提升的時代了,這個市場也早就不是丟幾個資料就能炸個天翻地覆的年代了。所以要想在這個接近飽和的市場有進一步的作為,各大廠商必須越來越重視各種高階體驗的提升(和宣傳)。

    好了,廢話有點多,下面我們還是來看各部分的細節吧。7今天,高通用一場長達138分鐘的演講向大家正式釋出了支援5G的新一代移動平臺——驍龍855。釋出會上,高通重點宣傳了驍龍855相容5G、AI效能提升巨大、影音娛樂體驗出色等特性。

    事實上,855的核心配置和效能早已被曝光個差不多,釋出會透露的關於技術細節上的“意外”,甚至都還沒有“855”這個名字大。不過,這並不意味著855就沒有什麼好解讀的——相反,今天的演講中,無論是花式吊打競爭對手的Keynote(以下根據習慣稱為PPT),還是對SoC各部分分工合作的探索,都包含了極大的資訊量。

    鑑於高通作為一個上游廠商,釋出會一般開得比較早,所以量產版本的855及各種實測資料離我們還很遙遠,所以小扁藍還是遵循一貫的風格,根據紙面特性和資料,進行一次“雲測評”。

    驍龍855:亮點

    這是釋出會上用於總結驍龍855亮點的一張PPT,這諸多亮點,特別是一堆“世界首個”乍一看令人眼花繚亂、讚歎不已。當然,這是PPT的慣用手法,在大洋彼岸H開頭的廠商的PPT中已經見得多了。真解讀起來,筆者認為下面這張PPT要方便得多。

    驍龍855:重要模組

    這張PPT中,驍龍855的亮點可以清晰地劃分為四部分:核心效能(左半部分)、通訊(右上角兩個)、影像處理(Spectra)和安全性(右下角)——當然,安全性方面855似乎並沒有帶來什麼新的亮點,這一塊更像是為了完整而湊上去的,或者說在這張PPT中,它的存在就是它存在的全部意義了。

    高通官網文案對比

    順便我們還可以看看官網的文案——透過與去年驍龍845的文案對比,我們可以看出高通今年的文案更加註重對體驗的宣傳,而不是強調技術引數。其實,這並非高通一家的轉變,隨著移動智慧終端在效能上越來越接近天花板、在功能性上又漸趨完善和均衡,這個行業早就不是可以隨便丟出50%以上提升的時代了,這個市場也早就不是丟幾個資料就能炸個天翻地覆的年代了。所以要想在這個接近飽和的市場有進一步的作為,各大廠商必須越來越重視各種高階體驗的提升(和宣傳)。

    好了,廢話有點多,下面我們還是來看各部分的細節吧。

    包含著4G的5G,還是能相容5G的4G?

    高通:5G=4G+5G

    儘管昨天的演講已經談了非常多關於5G的內容,但作為被坊間戲稱為“買基帶送AP”的基帶大廠,今天他們依舊花了半個多小時時間來宣傳5G。不過,值得注意的是,驍龍855只是“相容”5G,而非自帶5G——結合上面這張PPT,實在是有些滑稽(當然,這其實是昨天的一張PPT,其真正含義也不在此,而是更多地討論宏觀建設方面,這不是本文的重點,讓我們略過它)。驍龍855內建的只是一個支援Cat20、上下行分別為3x CA 316Mbps、7x CA 2Gbps的X24基帶而已——好吧,用“而已”確實有點不尊重人了,環顧四周,三星9820的基帶也是這個速率,麒麟980則是200M/1.4G,至於iPhone……我們還是等它找到訊號再說吧。

    話說回來,無論是運營商的基站裝置還是服務資費,都無法支撐我們大家都拿著幾百M甚至上G的速率去傳輸資料,所以筆者認為這個X24基帶也並不能給消費者帶來什麼體驗提升,我們看看就好(2018款iPhone使用者除外)。

    至於“極為先進”的5G,855將以下圖這種方式實現。

    5G的實現方案

    通訊方面小扁藍知之甚少,就不跟大家講什麼毫米波和sub-6GHz,什麼高頻寬和低延遲了。比較現實的問題在於,儘管5G建設的全球同步性要遠好於4G時代,儘管高通已經和整整一螢幕的廠商達成了合作,儘管在未來一年中可以預見將有很多(拿不出其他賣點的)手機廠商推出支援5G這一“黑科技”的新機型,但5G網路要多久才能達到一個足以提升體驗的覆蓋率?在此之前5G所額外增加的硬體會不會成為電爐絲?外掛的X50基帶及相關硬體又會為移動裝置增加多少尺寸、重量和售價?運營商以回落到3G為手段的4G變相流量限制會不會在5G上重演,如果會,那麼限額和資費是多少?

    對了,之前宣傳的X50基帶,是基於啥半導體制程來著?(有沒有重製版我不知道。)

    所以5G,當然是一個美好的未來。但今天來看,也的確是個“未來”——如果你剛好想換機,那買一臺支援5G的手機當然是可以“戰未來”的,但如果想為了5G而換機的話,我會推薦你一年後再做考慮。

    說完5G,昨天還有這麼一張PPT提醒我們:WiFi也是不能忘記的。釋出會上,高通提到了855在WiFi上的兩點新特性:802.11ax/ay。其中,ax擁有更好的連線性,能夠提升裝置接入數量、資料傳輸速度、網路覆蓋範圍和安全性,驍龍855也是世界首個移動裝置的ax解決方案;而ay則是高通很早就開始宣傳的,擁有喪心病狂的載波頻率和頻寬的WiFi標準——高通聲稱ay可以達到10Gbps的頻寬(UFS2.1瑟瑟發抖),但高達60GHz的載波頻率使其在穿越障礙物的能力上飽受爭議。

    Adreno:是真的到達了瓶頸,還是日常擠牙膏?

    去年在驍龍845上,Adreno 630是作為一個“視覺處理子系統”隆重登場的,在SoC概念圖裡也佔據了相當大的位置。相比之下今年的Adreno 640,無論是介紹篇幅還是效能提升幅度,則都有些寒酸了。

    或許是來自東方的神秘力量使然?反正這麼多年下來,無論是人還是技術,被我看好、粉上的似乎絕大多數接著就走了下坡路……不管那麼多,總之640的疲軟使我將其從壓軸(這個詞的用法好像有點爭議,大家明白就好)的位置提到前面來——有趣的是,這出場順序和高通的PPT一致。

    高通對於Adreno 640的介紹簡單得令人難以置信——如果不算後面吊打競爭對手的曲線圖的話,甚至只有一張PPT——

    Adreno 640特性

    這張PPT也非常簡潔,除了宣稱了20%的效能提升之外就沒有任何資料了——儘管強調了能效依然業界領先,但沒有資料的支撐是不是有些底氣不足呢?去年你們可是白屏黑字寫著能效提升30%的。

    技術上倒是說了一些(有的沒的),比如為了提升能效,Adreno 640集成了電源管理的微控制器並進一步降低了驅動開銷——後者我們已經十分熟悉了,GFXBench測試中麒麟980的驅動開銷也是有了長足的進步。不過需要注意的是,在GFXBench的測試中一個強悍的CPU也是能大幅提高該專案測試成績的,結合G76的PPT對驅動開銷閉口不談,筆者十分懷疑980的驅動開銷進步主要是A76相比A73的提升所致;至於Adreno 640的這一專案是不是在GPU本身上取得了進步我們不得而知——哪怕只有一丁點的進步,我想在GFXBench驅動開銷專案上達到100FPS以上(約2.5倍於980)應該是完全沒有問題的,所以革命尚未成功,Mali仍需努力啊。

    另外,高通還聲稱855還是世界上首個支援Vulkan 1.1的移動處理器,相比OpenGL ES可以降低20%的功耗。

    在官網模板互相借鑑以後,高通在PPT大法上似乎也深得ARM真傳。遊戲特性的介紹並沒有到此為止,而是在釋出會臨近尾聲的時候以“Elite Gaming”的名義又宣傳了一波——比如剛才提到的Vulkan,還有物理渲染(PBR)、True HDR和電影級後期處理。後面三項當然是主打畫質的提升。

    Snapdragon Elite Gaming特性一覽

    這裡高通還表示驍龍855支援了10bit色深,這似乎是一個值得一提的進步——儘管我們不知道會不會有廠商把10bit的螢幕用在手機上。此外高通在PPT中還提到Adreno 640提升了頻寬壓縮技術——相信感受過A12 GPU殘暴提升的同學對這一名詞都不會陌生。

    說了這麼多,療效如何呢?讓我們先看高通官方“吊打風”的PPT:

    高通:驍龍855的持續遊戲效能勝過7nm競爭對手

    近幾年中,許多競爭對手為了提升效能,不惜將移動GPU的峰值功耗地拉到10W上下,而Adreno卻始終堅持不越過5W左右的紅線,這是他們最讓筆者產生敬意的一點了——畢竟與CPU和General-computing Processing Unit不同,Graphics Processing Unit的峰值效能並沒有用,所有吃圖形效能的應用場景幾乎都是長期負載的。所以在PPT上,高通一般喜歡和對手比持續效能,就像這張PPT——儘管沒有明說對比的是哪兩個競爭對手,但“7nm”已經傳達了一切:鑑於目前已經發布的7nm移動晶片只有三個(顯然我們要把A12X這個平板晶片先開除掉),我們能明顯地看出圖中灰色的曲線來自Apple A12,而深藍色曲線來自麒麟980。

    這張圖使人驚訝的有兩點:一是殘暴的A12在這裡持續效能居然被855壓了一頭,二是高通居然承認845的峰值遊戲效能不如980。

    關於第一點,以著名的GFXBench測試場景Manhattan 3.1 Offscreen為例,按照AnandTech的資料,A12可以在3.8W功耗下提供高達76.5FPS的效能輸出,而按照PPT資料,比845圖形效能提升了20%的855滿血效能也只有73.5FPS——那麼到底是Adreno對遊戲有神最佳化,還是iPhone Xs系列悽慘的散熱從中作祟?我們還是靜待量產版855的實際測試吧。

    至於第二點,無論是AnandTech的GFXBench功耗測試還是考慮到845突破天際的CPU功耗,都不能支援圖中的兩個曲線;甚至筆者認為兩條曲線反一下或許更合適。當然,畢竟俗話說“過氣旗艦不如狗”。舉個例子,你看980釋出之前和釋出之後,關於970和845的AI效能華為是怎麼講的?

    在釋出會現場,高通還展示了搭載845和855的兩臺原型機(鎖定40FPS)執行PUBG的功耗情況。從圖中可以看到,855原型機的平均功耗為2.58W,相比845原型機的3.28W下降了約0.7W,即超過20%。考慮到這組資料是整機功耗,那麼扣除螢幕等因素的干擾,同性能下855遊戲功耗的下降幅度應該更大。只不過,無論是從我們對PUBG遊戲特性的瞭解還是對原型機功耗的分析上看,這組測試的壓力對於兩顆Adreno都顯得太低了,所以參考價值並不高。還是那句老話,表現究竟如何,讓我們靜待量產版的上機測試。

    GPU部分到此結束,細心的朋友可能會發現,釋出會提到的50%的ALU增加我並沒有提到,這一段的小標題的問題也沒有回答。

    讓我們遵循釋出會原文的意思,在AI部分再來分析這個。

    Kryo 485: 1+3+4,怪胎還是神作?

    對移動裝置而言,無論近年來神經網路、人工智慧吹得多麼天花亂墜,也無論各種XR娛樂體驗有多麼“沉浸”,在新的革命性的計算體系產生之前,CPU依然是裝置核心效能的重中之重。

    Kryo 485 CPU

    驍龍855的CPU部分採用了基於ARM公版Cortex-A76和A55定製的Kryo 485架構;同時藉助ARM去年釋出的DynamIQ技術,高通將高效能核心進一步分為1個“Prime”核心和三個效能核心。除了PPT中給出的頻率以外,我們還得知其快取配置分別為:Prime核心512K L2,效能核心每顆256K L2,能效核心128K每顆,全部核心共享2M L3,另有3M的系統快取——也就是說,除了Prime核心將L2增加到512K以外,其餘快取配置和845完全一致。作為對比,麒麟980的四個基於A76的核心均採用了512K L2,L3為4M,但似乎沒有系統快取。

    我們首先來談第一個問題,答案是明確的:會,否。

    當然,快取不是越多越好,比如AMD的FX系狂堆大量快取然而並幹不過Intel的X299系——好吧我開個玩笑,連CPU架構都天差地別當然不能這麼比。認真來講,由於日常應用能使用的快取是有限的,過大的快取並不會帶來成比例的收益,因而不僅會造成電晶體的浪費,還會造成功耗和延遲上的額外開支。我們還是以常用的書桌、書櫃等作為例子:如果給你一個大大的書桌,固然書桌上可以堆放很多書,這樣你不必經常去書櫃裡取書和放書,但當書桌大到一定程度(比如5平方米),首先你想要夠到書桌的遠端就變得困難,其次當書桌堆放了太多書籍時你要從中找出一本書也需要額外的尋書開銷。

    但是,這是對於過大的快取規模來說的。說回程序執行的具體流程:在程式的執行中,CPU會在快取裡讀寫所需的資料,如果當前執行的程式折騰半天只有16K的資料量,那就算你只配16K快取都沒有關係,多的部分反而成了電爐絲;但如果程式用到的資料超過了256K而小於512K,那麼麒麟980的大核仍然可以高速讀寫L2,而Kryo 485的效能核心就必須與較慢的L3來交換超過256K的部分資料,於是運算單元就必須進行一段時間的等待,而一旦發生等待,毫無疑問就是效能的損失。所以關鍵的問題在於,在大量日常使用中快取用量一般是多少,我們是應該遷就更吃快取的程式,還是乾脆放棄這些程式的執行效率?

    略舉兩例:一個是隻有1M共享L2的驍龍660,一樣是基於A73的架構,同頻效能就遠低於配備2M共享L2的驍龍835或麒麟960、970(當然,由於高通沒有透露架構的具體細節,我們也不能完全歸咎於快取閹割,但肯定是原因之一,不然高通這麼摳的廠商肯定連835一起摳了);另一個是大核只有256K L2的驍龍845,那也不是不能用對不對(小道訊息說MTK最近出片的A75架構IPC是比Kryo 385高一些,但時至今日845已經圓滿完成了自己的任務了)。

    說回來,你別看845拿著256K安安穩穩過了一年,現在A75換到規模更大的A76,用同樣的快取,快取不足的場景肯定會更多——高通不傻,你沒看人裝了一個滿配的Prime來撐門面了麼,只不過256K L2造成的效能損失不足以迫使高通上全部的512K罷了。

    所以筆者認為,855的效能核心少了一半L2必然會造成效能的損失。但這只是在各種效能和功耗測試資料(或許還有商業利益,嗯,夠委婉了吧)的共同指導下進行的合理範圍內的配置取捨,我們並不能就此給高通扣上“閹割版A76”的帽子,因為在ARM官方的說明中,對於快取的描述是這樣的:

    ARM對於Cortex架構快取配置的說明

    ARM在設計核心時就已經給出了快取配置的選擇範圍,你總不能說達不到最高配置就是縮水閹割吧。不然你數數這幾個核心,不縮水的我們見過幾個——你見過256K L2的A55或者8M L2的A73嗎?

    要真說“閹割版”,我覺得9810上的A55倒是貨真價實——我實在忍不住再次吐槽究竟是怎樣的腦洞才能搞出“no L2”的設計,或許跟當年Kryo的流水線混用有一拼吧。

    另外,這裡著重以L2為例,一方面因為L2的影響應該會更大,另一方面,筆者認為系統快取的存在應該能在一定程度上彌補L3的不足,當然這也只是推測。

    接下來是第二個問題:1+3+4。

    首先,這不是三從集,這不是三從集,這不是三從集——重要的事情說三遍,“執迷不悟”的同學請自行復習DynamIQ的相關知識。

    Prime Core

    今天釋出會上,高通似乎特別喜歡講歷史——講通訊從1G時代開始,講移動終端效能體驗從2013年開始,講到Prime核心的引入,又從爺爺輩的aSMP說起了。

    aSMP,全稱asynchronous Symmetric Multiprocessing(注意不是Asymmetric Multiprocessing),即非同步對稱多處理,是高通在基於Krait架構的驍龍CPU中引入的、能夠獨立控制不同核心頻率的技術。在Android 5.0以前,由於系統對多執行緒處理的最佳化不足,aSMP曾經在功耗控制上有特別的優勢,但也因為不同核心之間快取資料同步的問題被諷為“膠水多核”。

    BIG.little(其實ARM官方寫作big.LITTLE),又稱Heterogeneous Multiprocessing(HMP),即異構多處理,是ARM為適應嵌入式高效能計算研發的、由一簇高效能核心和一簇低功耗核心組成的CPU。早期的big.LITTLE中兩簇核心不能同時上線,加上系統多執行緒最佳化不足,導致其兼具了傳統多核處理器空跑吃電的問題和aSMP快取同步的缺陷,當年頗具代表性的三星和高通兩大陣營也是為此打得不可開交。後來,隨著Android系統級的多核最佳化加持和“真八核”的互連允許了兩簇核心同時線上,大幅改善了HMP的體驗,使之最終成為主流,被高通、三星、華為等廠商廣泛採用。(MTK:又把我忘了,我不要面子的啊?)

    2017年,ARM釋出了更先進的HMP技術——DynamIQ,將八核處理器的大小核心重歸一簇並配置了每顆核心的獨立L2和全核共享的L3,增強了每顆核心的獨立性,同時又取消了大小核之間的獨立性。由此我們可以看到如2+6這種更靈活的核心配置和不同核心間更對稱更自由的負載排程,但隨之而來的問題是大核的線上和更大的共享快取和DSU模組導致靜息功耗略有上升,並且更復雜的快取系統增加了訪存延遲。驍龍845成為了ARM DynamIQ的第一個代表作。

    這就是移動多核處理器的互連結構發展史。我講這麼多歷史想說明的是:今年高通引入的Prime核心,包括華為採用的高低頻的A76-Based,事實上並不是什麼新鮮事兒,完全是在DynamIQ框架內的操作。按照DynamIQ的構想,我們其實完全可以設計8種不同的微架構,然後將這8種微架構各做一顆核心搭配到一個CPU中,構建一個Prime.Huge.Big.Little.Micro.Nano.Pico.Femto架構的八核處理器,至於為什麼沒人這麼做,只是因為這樣大動干戈對體驗提升不大,在最佳化上存在太多問題而已。

    而即使我們不搞這麼多不同的架構,DynamIQ中同構的核心(比如四顆A55)也完全可以執行在不同的頻率上,甚至兩顆線上兩顆離線,理論上都是允許的。所以當高通告訴你我把Prime跑到2.84GHz,而三個效能核心跑到2.42GHz時你也不必驚訝:對於任何熟悉DynamIQ的廠商來說這都不算什麼新鮮操作,何況是玩了多少年aSMP的高通。

    說回aSMP被諷為膠水多核那件事,DynamIQ對此的改進是額外增加了共享的L3,這樣當一個2.84GHz的核心需要和一個2.42GHz的核心交換資料時,就不需要複雜的變頻操作來實現直接對接,只需要一個核心把資料丟到L3裡再由另一個核心去取就好。

    當然還有一個問題就是能效。我們知道,對於一個確定的CPU核心,其功耗總是隨著頻率增加而超越線性地增加的,是一個下凸函式(或稱凹函式),而除非遇到了設計不均衡導致的瓶頸,效能與頻率則一般是正比關係。那麼,架構相同而部分跑高頻、部分跑低頻的多核處理器,其功耗必然大於同一處理器全部核心跑在加權平均的頻率值上的功耗,這也是你一個正常的同構多核處理器跑多執行緒負載時一般總是使用同步排程而非非同步的原因之一(單核睿頻當然是另一種情況,因為它只在單執行緒負載時生效,根據AnandTech的測試,Apple在A11和A12上採用了這種策略)。不過高通和華為工程師也不是傻子,這麼簡單的道理他們必然是考慮過了的。也就是說,顯然Prime核心和效能核心的效能-功耗曲線不會完全一樣。但這個“不一樣”究竟有多不一樣,Prime核心的超高頻究竟只是為跑分而生還是能表現出足夠的高頻能效和穩定性,還是需要實際測試來檢驗的。

    去年在驍龍845上到2.8GHz頻率時,小扁藍在文章中表現出對功耗的擔憂,然後實際測試表明845的多核浮點整機功耗的確達到了突破天際的10W(儘管整數測試峰值只有大約7W,還算能用)。今年,翻倍的L2和更進一小步的2.84GHz,似乎又是同樣的風味,加上了一個密度大幅提升高頻能力堪憂的7nm,但另外三個核心倒是下到了2.42GHz——功耗還會翻嗎?讓我們拭目以待。

    說到功耗還是免不了對比麒麟980,幾乎同樣的架構,但麒麟980的頻率只有兩個2.6和兩個1.92——如目前洩露的跑分所表現的那樣,855的CPU效能明顯是大幅超過980的,但同時可以預見的是,除非高通超神,否則855的CPU能效是必然不如980的……嗯,我似乎隱約聽到了“吊車尾”的呼喊聲。[滑稽]

    當然還有一點值得注意,那就是麒麟980採用了極高密度的7nm工藝版本,密度達到了93MTr/mm^2,比A12的工藝版本密度要高出十幾個百分點。眾所周知,高密度工藝對高頻段的功耗影響幾乎是災難性的,倘若驍龍855採用和A12一樣的較低密度的工藝版本,其高頻功耗或許會有所改觀。由於高通官方只提到驍龍855的電晶體數超過60億隻,而拒絕透露具體數字以及Die Size的相關資料,這一點只有等相關拆解機構的晶片照片出來再討論了。

    說完了排程,說完了功耗,看起來1+3+4這種怪胎也不是非常怪了。但我們必須考慮到這樣的設計仍然有一個風險:出於對單核效能的需求,單執行緒負載肯定會優先調配給Prime核心來做,但在CPU和軟體們已經幾乎完全適應了多核排程的今天,已經很久沒有人把單核程式完全寄託在單個物理核心上了,包括蘋果——這無論對於作業系統、應用軟體還是對於Prime核心及其伺服模組,在穩定性方面都是一個極高的考驗。特別對於一些多執行緒支援仍然不理想、又恰恰需要長期負載的大型遊戲,一旦Prime核心的流水線或者熱穩定性出現問題,正在執行的程序能否及時遷移出來,頂替其工作的效能核心的單核效能(包括快取容量)又能否跟得上體驗需求,實在是讓人捏一把汗。

    ——上一個搞單核超頻的是誰來著,9810?且不論9810的四個大核是對稱配置能夠較為方便地輪流負載,9810它……它還沒接受這方面的考驗就翻車了不是嗎?[狗頭]

    哦,差點忘了高通PPT上還有兩行,提到擴大亂序執行視窗和最佳化資料預取兩個基於A76的定製點。小道訊息說華為在“A76-Based的超大核”上也做了同樣的事情,療效如何還是等實際測試吧。

    吐槽了這麼多,終於要說療效了。

    高通宣稱,驍龍855的CPU部分相比於驍龍845可以帶來45%的效能提升。

    根據最新爆出的跑分資料,在移動端常用的Geekbench 4測試軟體中,驍龍855的表現如下表:

    最新曝光的驍龍855 Geekbench 4跑分,資料來源:@未消失的亡靈

    如果這組資料可靠的話,那麼這顆2.84GHz的Prime核心基本可以達到蘋果A10的水平了,而功耗應該會明顯低於後者——當然隔了兩年達到這個水平也沒什麼好驕傲的,這一效能相比於蘋果去年的Monsoon都還有較大差距,更別提今年的Vortex了。

    不過多核效能可以說是個驚喜:按照這組資料,多核效能可以說已經完勝A11、和A12互有勝負。儘管我不太認為功耗能壓得住,但即使功耗只和845保持一致,855也足夠稱得上合格的旗艦了。(如我一直強調的,安卓與蘋果真正的差距在於小核,拖著A55這個殘廢,導致安卓必須上四顆大核才能在多核上追上蘋果,當然能追得上也不錯了,畢竟對面那可是個大核7發射、小核亂序3發射的怪物。)

    然後讓我們再看一看高通官方的說法——他們給出了這樣的“吊打風”PPT:

    高通:驍龍855的常用App載入速度勝過7nm競爭對手

    首先是App載入測試,對比的同樣是兩個未指明的“7nm的競爭對手”。根據系統特性筆者猜測灰色的競爭對手應該來自“快得均勻、慢得也均勻的”iOS陣營,而深藍色就應該是麒麟980了(純屬猜測,僅供參考)。不過問題是,App載入測試本身就是面向體驗的測試,而非硬體效能的直接反映,你跟一個拖著iBug的A12和一個帶著省電精靈的980比,就算比贏了就能說明你CPU效能強大嗎?

    ——對了,前面說到快取鎖水的事,這裡和855對打的,應該是以配備128K L2的A55為主體的麒麟980吧。[手動滑稽]

    當然,既然今天宣傳的發力點是“體驗”,那就勉強算你說得對吧——如果資料可靠的話。

    從驍龍835鼓吹能效嚐到甜頭開始,高通似乎就沉迷於能效和持續效能不能自拔——儘管845的功耗控制實在是不咋樣。這不,接下來高通又給出了一張系統持續效能的對比圖:

    高通:驍龍855的持續系統性能碾壓7nm競爭對手

    高通對系統性能的定義是包含了CPU和GPU的,那麼很顯然在這張圖中深藍色應該是A12,而灰色應該是麒麟980。不過,高通並未指明系統性能究竟是在跑什麼鬼東西,這就導致這張圖所顯示的效能就像某兔或某大師的跑分一樣毫無參考價值。

    高通表示,驍龍855的設計位於效能和功耗的“甜點”,這體現了他們如下圖所示的設計理念。

    高通:“打太極”是我們的設計理念

    這倒是一張非常到位的PPT——不要誤會,我不是稱讚高通的設計理念,只是我覺得這圖還有另一層意思:我們今天的PPT,致力於“打太極”。

    ——再比如下面這張(前面幾個點的說明和輔助線等是筆者加的):高通表示,855相比845的CPU提升相當於直接加了一個驍龍800。聽起來這種大幅提升值得讚歎,但仔細對比前面幾個點我們就發現了蹊蹺:當年是誰宣佈某代CPU比前代提升1倍來著?又是誰在後一年宣稱提升20%來著?還有圖裡這個0斜率是什麼情況啊,合著Kryo出來坑了一年緊接著認了個慫,然後載入史冊的時候還是一番光輝形象?

    歷代驍龍8系CPU效能提升曲線(筆者為前幾個點添加了說明和輔助線)

    好了說回現實。對CPU的使用場景,現場同樣有一組原型機的對比演示,根據圖中資料:在典型的日常使用場景中,845原型機的平均功耗為2.24W,而855原型機的功耗為1.79W,相比845原型機下降了0.45W,同樣是20%。根據現場照片來看,原型機的螢幕亮度並不低,因而我們可以暫且認為855的CPU部分在日常使用中的能效提升還是相當可觀的。

    進化的異構AI:這到底算不算NPU?

    這次的最後一部分留給AI,不是因為它有多麼流行,也不是因為它有多麼重要,而是因為,在NPU/IPU/NE盛行的今天,高通似乎向我們展示著一條另類卻又很自然的道路。

    去年秋天,華為在手機晶片上使用了由寒武紀研發的具有1.92T FP16算力的NPU,率先喊出了AI的口號;幾乎與此同時,蘋果在A11晶片中加入了0.6Tops算力的NE,並支撐了基於結構光技術、具有3萬個取樣點的3D人臉識別Face ID;而Google則在Pixel 2系列旗艦手機中外掛了一顆具有3Tops算力的IPU,將AI演算法用於提升拍照——可以說,將2017年定義為手機AI元年應該不為過。

    去年底,高通在驍龍845的釋出會上故作淡定地說:在驍龍845中,內建有我們的第三代AI平臺。

    ——熟悉移動SoC發展歷程的當然知道,早在2016年初,高通就在驍龍820上推出了其第一代Zeroth認知計算平臺,其本質就是AI;而不熟悉的人只知道,華為是率先將神經網路處理器用於智慧手機的廠商。

    或許我們可以說,高通大大低估了AI在移動智慧終端上的發展速度;又或許,他們也低估了“AI”作為商業噱頭的影響力(這大概就是高通作為一個上游廠商,與華為、蘋果這樣擁有一套垂直研發體系的綜合廠商在市場營銷風向把握上的天然劣勢吧)。總之,看著自己發展了兩年多的AI無法得到廣泛認可,高通那心裡可別提有多著急了——不然,怎麼會有“驍龍660AIE”這種換名不換晶片的奇葩名詞出現?

    我們都知道,神經網路加速單元這種專有晶片的技術門檻並不高,況且高通在過去兩三年的研發中已經積累了一些相關技術和人才,所以做一個獨立的NPU對高通來說並不是難事。特別是今年4月,當物聯網晶片QCS 605在官網上掛出,並標註2.1Tops@1W的神經處理效能時,幾乎所有人都以為,高通要“棄暗投明”,走向獨立NPU了——我們甚至還想著,獨立NPU的加入很可能將Adreno 630中為AI開設的ALU解放出來,從而大幅提升GPU效能。

    所以當昨天第一場演講中提到驍龍855的AI處理仍舊是基於CPU+GPU+DSP的異構AI平臺時,很多人一時間不明所以:為什麼,高通還在執迷不悟地走異構AI之路?

    然而這一次,當手握第四代AI平臺的高通發言人再一次站在釋出會的舞臺上,他們已經學會了如何用AI的語言來介紹和宣傳自己的AI平臺。

    高通:驍龍855的AI算力3倍於845, 2倍於相容安卓的7nm競爭對手

    如圖,兩張PPT,兩個數字,以正面的算力比較,就足以回擊一切質疑了——高通宣稱,驍龍855的AI效能在三倍於前代的同時,兩倍於“相容安卓的、7nm的”競爭對手(指的是誰不用我多說了吧)。

    接下來,自然是一波故事性的營銷——我們不必關注發言人是不是真的在茂宜島向女友求婚並度了蜜月,我們只要知道,高通所做的“有效地選擇最合適的核心”的異構AI,和人腦的功能分割槽是如此地相似,就夠了。

    高通:我們的AI設計理念源於人腦的功能分割槽

    當然高通很皮地放了一張PPT來對比人腦和智慧手機晶片的各項指標,並表示在過去12年中智慧手機晶片有了巨大的進步,但還有很長的路要走。當然這不重要,不過這張PPT挺有趣的,放上來給各位看一下。

    人腦和手機晶片的特徵指標對比

    嚴肅地說,看到這裡我們可能會意識到一些問題——不管這算不算被營銷洗腦——當我們提到一個“Bionic(仿生)”的晶片時,想到的究竟應該是高通的PPT所描繪的這幅畫面,還是一個晶片的某一塊區域圈了一塊地,標註了“NPU”或者“Neural Engine”?

    誠然,“Bionic”起初的含義肯定是模仿生物神經網路的原理而搭建起的運算單元,肯定和高通這裡強調的模型沒有關係。但不得不說,高通向我們展示了一條無比自然的道路,以及一個無比自然的未來:如果SoC真的能像人腦那樣,智慧地排程各個模組完成它們最擅長的處理任務,豈不是最AI的結果?

    說到這裡你可能突然反應過來什麼,說,任何一款多功能的晶片(或叫SoC),甚至簡單的CPU架構,乃至任何一個由人類製造的機械系統,不是都具有這樣的特性嗎?

    ——但這還真不是洗腦,仔細想想,“人工智慧”一詞的本意,原本就不只是侷限於張量運算、侷限於神經網路處理啊。PC發展了幾十年,難道不算是個人工智慧嗎?

    第一,思路上自然的東西,在科學和技術研究中並不總是正確的。近現代物理學中許許多多反直覺的操作我就不在這篇文章中跑題了,舉一個晶片設計上的例子,就在前面我們剛剛提到過的aSMP,基本思路可以概括為“CPU裡給你放4顆核心,需要幾個開幾個,全對稱設計、按需分配、獨立排程、互不干擾”,也是一個十分自然的思路。但冰冷的現實告訴我們,單一架構並不能同時實現高效能和低功耗,HMP這才應運而生。

    第二,高通採用異構AI平臺,有其自身的商業考慮。作為一個晶片製造商,高通直接銷售並由其獲利的產品是晶片而非智慧終端,因而高通必須在效能達到預定指標的情況下儘可能縮減晶片成本、減少設計冗餘。這時候,如果以獨立的NPU來重複實現CPU和GPU已經能夠實現的計算功能,在芯片面積上就會造成浪費,從而提高晶片的製造成本,這是高通作為一個晶片廠商所不能理解的。同時,高通基於CPU、GPU、DSP三大件構建的AI平臺已經發展了很久,全面涉及其高中低端晶片,因而高通必須為其設計的所有晶片的AI適配考慮,很難隨意更改設計。

    第三,儘管高通不聲稱自己有獨立的NPU,但他們的確在新的DSP中加入了專為AI設計的、相當於NPU的“張量加速器”,所以我們也並不能說高通是完全不接受獨立NPU設計的,高通的長處在於充分挖掘了固有CPU、GPU和DSP在AI上的應用,透過硬體複用的方式節約了硬體資源。而事實上,ARM在公版CPU和Mali GPU上一直想做同樣的事情,只是作為一個IP廠,他們對終端晶片上對這個半賣半送的電爐GPU的應用實在是鞭長莫及。

    讓我們接著看技術細節,首先是Hexagon 690 DSP。

    全新的Hexagon 690 DSP

    自820引入Hexagon 680以來,高通的DSP型號已經在68x上壓抑了三年,今年終於得以把第二位換成了9,可見其確有關鍵性的提升——如前所說,除了將標量效能提升20%、向量效能翻倍之外,引入了全新的張量單元,專用於AI方面的計算。

    ——至於為什麼張量單元作為DSP的一部分而不作為獨立NPU,高通發言人在回答提問時表示:如果叫獨立NPU能有助於銷量,那你們愛怎麼叫就怎麼叫吧。[滑稽]

    於是,全新的DSP配合著進一步升級的CPU、多了50% ALU的GPU,就實現了高通所宣稱的三倍於驍龍845的AI算力:超過7Tops。

    高通:驍龍855異構AI可以實現超過7Tops的算力

    ——什麼?Adreno又加了50%的ALU?剛才介紹GPU的時候怎麼沒說?

    這大概便是Adreno 6系的最大謎團:年初我們提到,Adreno 630很可能擁有兩倍於540的ALU,而設計頻率同樣是710MHz;最神奇的是ALU在計算中的功耗遠高於710Hz下圖形場景的GPU功耗。當時我們據此推斷,630中很可能有接近一半的ALU並不參與圖形運算,而是專門為AI準備的——或者換上那個滑稽的名詞,General-computing Processing Unit。

    同時,Adreno 630在上機實測中表現出了和預期以及宣傳不符並且十分詭異的能效表現:一方面是GFXBench場景功耗遠高於預期,另一方面是低壓場景的能效提升似乎並不明顯。據此我們不得不懷疑在630進行圖形輸出時,多餘的ALU究竟是待機狀態還是電爐絲狀態?鑑於高通官方開放用於讀取GPU負載的Trepn Profile已經停止維護,我們暫時無法找到相關證據。

    在驍龍855上,我們原本期待獨立的NPU會將更多GPU ALU從AI運算中解放出來,以使其獲得更高的圖形效能和能效,但高通並沒有這樣操作,而是又增加了一批不知是否參與圖形運算的ALU,並且這一資訊還是在介紹AI的PPT中展示的。這就讓事情變得更加撲朔迷離。

    不過,筆者十分期待這次Adreno 640的上機實測配合著die shot可以為我們揭開這個謎團:一方面,烤機功耗和圖形功耗能為我們判斷圖形場景ALU開啟數量提供參考,而圖形效能的提升和執行頻率的變化也能輔助確認參與圖形渲染的ALU是否有大幅增加;另一方面,die shot可以提供GPU核心數資訊,由於我們已知630是雙核GPU,增加50% ALU的640究竟是維持雙核還是擴充為三核,對我們揭開上述謎團也至關重要。

    另外一個值得一提的細節是系統快取。前文中我們講到麒麟980“似乎沒有”這一配置,那麼顯然這並非DynamIQ的必需品;況且,多一層快取會增加儲存系統的複雜度,對訪存方面的表現(特別是延遲)難免會有一定的副作用。於是我們自然會產生一個疑問:高通為什麼不直接把L3加滿,而一定要冒著副作用的風險單獨設定一層系統快取呢?

    現在結合高通在異構AI上的堅持,答案就很明顯了:筆者認為,在驍龍855的AI運算中,CPU、GPU和DSP三大模組之間的資料交換和共享將會非常頻繁,以至於記憶體的速度無法滿足AI運算的需要,所以系統快取很大程度上也是為AI準備的。而麒麟980這種由獨立NPU實現AI的方式,自然就不需要這一層快取。

    所以我們可以看到,其實高通為異構AI付出的代價一點兒也不比增加獨立NPU低。或許等AI方面的測試結果出爐,看到搭載了專長於FP16的NPU的麒麟980在其他型別的運算中被吊打的時候,我們就會發現高通所選擇的道路的意義所在。

    最後,熟悉了營銷套路的高通自然不忘拉一票AI應用為自己的“生態系統”站臺,比如這次就展示了由谷歌、Elevoc、虹軟等合作者帶來的XR、麥克風降噪、超級夜景等功能。不同於華為、蘋果,高通作為一個平臺廠商來做這些事情,就意味著這些功能將不再是一兩個手機品牌的專利,而將迅速地在各個品牌的安卓手機中普及開來,這無疑是我們作為消費者樂於看到的未來。

    儘管最近一段時間我們一直在講,從商業競爭角度考慮,旗艦級SoC市場的未來終將屬於垂直整合的終端廠商。但高通這一次似乎堅定地展示著自己各方面的野心。除了隆重宣傳了異構AI平臺,他們還以“World’s First CV-ISP”這種“浮誇”的標題著重介紹了全新的、看起來有些瘋狂的Spectra 380 ISP。

    高通:驍龍855搭載了全球首個CV-ISP

    全新的ISP,除了日常的效能提升和功耗下降以外,最大的亮點就在於與AI平臺的結合和計算機視覺的應用,PPT也進行了很多展示:包括基於60fps實時景深識別的人像4K HDR、背景分割和替換,包括基於XR的人體追蹤以及物體識別和追蹤等等。另外,驍龍855還是第一個支援4K HDR10+的移動平臺。

    由於計算機視覺的引入,手機攝影的可玩性大大增強,JPEG已經不能滿足檔案儲存的需要,因此驍龍855也支援了HEIF檔案格式。順便,高通的發言人還暗暗吐槽了對面水果幾乎只將HEIF用來壓縮檔案大小,而浪費了其更多優秀的特性。[滑稽]

    有關計算機視覺方面的操作,特別是對AI演算法的利用,高通倒不是發明者。在此之前,谷歌、華為、蘋果等廠商都在這方面取得了可觀的進步。

    但還是那句話,作為一個平臺提供商,高通的可怕而又可喜之處在於,他們所做出的每一項進步,幾乎都會普惠於整個智慧手機市場。而高通今天的這次演講,或許是有史以來各種移動終端相關廠商的釋出會中,對AI應用前景最集中、最豐富的一次展示。

    高通關於AI的介紹,展示著自己的野心,也為我們描繪著手機AI的美好未來。這一切,無論是高通作為移動平臺製造商引領一個時代的雄心壯志,還是其在旗艦市場瀕臨絕境之時最後的瘋狂,他們的努力和創造總是使人感動的。儘管筆者仍舊對手機多攝這種浪費資源的發展方向持反對意見,儘管筆者在前面批判了高通在GPU上寒酸的提升和CPU快取上的配置不足,但在AI上的研發和推廣上,高通這一次看起來真的是不遺餘力。那麼在這一小節的結尾,就讓我們拋開商業的冷漠,拋開對營銷手段的敵意,真誠地向移動終端和移動AI的未來獻上最美好的期待,也向那些努力推動和實現這一切的工作人員致以最高的敬意。

    結語

    爆肝16個小時後,這篇可能是小扁藍迄今為止第二長的數碼文章終於接近尾聲了。

    看了一眼字數,都超過驍龍855的Geekbench跑分了。

    如果要像去年寫845那樣,由釋出會資訊簡單地總結一下驍龍855的基本狀況的話,我想同樣可以總結為四點:著力宣傳但未必能及時應用的5G相容性,小幅提升、能效穩定的GPU,部分快取配置不足但效能仍然可期的CPU,和大幅進化並趨於完善的AI體系(其中特別突出的是計算機視覺在手機攝影中的廣泛應用)。

    其實這篇文章是臺北時間12月6日中午動筆的,完成時已經是12月7日了(所以文章中很多“今天”和“昨天”的表述事實上應該做一些修改,不過這並不重要)。作為一個由米粉而關注智慧手機行業的愛好者(儘管現在已經成為了果蛆),或者說作為一個以一篇驍龍845解讀出道的數碼博主,我承認,我對於基帶通是有一點特殊感情的。

    怎麼說呢,高通於我,或許就類似於Apple之於AnandTech和Zealer吧。

    前面說到,從商業競爭角度考慮,旗艦級SoC市場的未來終將屬於垂直整合的終端廠商。這種論斷主要出於對旗艦SoC高昂的研發和製造成本和相對不那麼高的市場售價的考慮,但或許也有些過於悲觀,畢竟旗艦平臺除了銷售利潤外,其對品牌影響力的加成是不容易量化評估的。

    此外,在今天(7日)的演講中,我們還看到了高通有史以來最“獨立設計”的計算平臺——為Windows筆記本設計的8cx。從中我們似乎可以看到高通藉助ARM之力向上衝擊生產力市場的野心。或許在未來兩年裡,驍龍在筆記本市場的表現,也會成為高通在手機市場的旗艦晶片能否持續下去的重要影響因素。不過在那個以生產力為追求的市場,將牽涉到微軟、蘋果、英特爾、ARM甚至臺積電等軟硬體供應商和終端製造商之間更加錯綜複雜的利益糾葛,那將是另一個全新的故事了。本文限於篇幅和主題,就不再展開討論。

    總之,高通的這次峰會,向我們傳遞了許多有趣的資訊,讓我們看到了移動智慧終端這個已趨飽和的“夕陽產業”依然存在的發展空間。

    最後還是要強調一句,本文所分析的,終究還是紙面特性和資料。855的表現究竟如何,讓我們靜待兩三個月後的真機測試吧!

  • 中秋節和大豐收的關聯?
  • 我30歲,定期壽險和終身壽險怎麼取捨?