-
1 # 虎鯨生活
-
2 # 史淑榮
當然是的,而且是未來的最主要的科技。
張量處理單元(TPU)是一種定製化的 ASIC 晶片,它由谷歌從頭設計,並專門用於機器學習工作負載。TPU 為谷歌的主要產品提供了計算支援,包括翻譯、照片、搜尋助理和 Gmail 等。Cloud TPU 將 TPU 作為可擴充套件的雲計算資源,併為所有在 Google Cloud 上執行尖端 ML 模型的開發者與資料科學家提供計算資源。在 Google Next’18 中,我們宣佈 TPU v2 現在已經得到使用者的廣泛使用,包括那些免費試用使用者,而 TPU v3 目前已經發布了內部測試版。
第三代 Cloud TPU
如上為 tpudemo.com 截圖,該網站 PPT 解釋了 TPU 的特性與定義。在本文中,我們將關注 TPU 某些特定的屬性。
神經網路如何運算
在我們對比 CPU、GPU 和 TPU 之前,我們可以先了解到底機器學習或神經網路需要什麼樣的計算。如下所示,假設我們使用單層神經網路識別手寫數字。
如果影象為 28×28 畫素的灰度圖,那麼它可以轉化為包含 784 個元素的向量。神經元會接收所有 784 個值,並將它們與引數值(上圖紅線)相乘,因此才能識別為「8」。其中引數值的作用類似於用「濾波器」從資料中抽取特徵,因而能計算輸入影象與「8」之間的相似性:
然後,TPU 從記憶體載入資料。當每個乘法被執行後,其結果將被傳遞到下一個乘法器,同時執行加法。因此結果將是所有資料和引數乘積的和。在大量計算和資料傳遞的整個過程中,不需要執行任何的記憶體訪問。
這就是為什麼 TPU 可以在神經網路運算上達到高計算吞吐量,同時能耗和物理空間都很小。
好處:成本降低至 1/5
因此使用 TPU 架構的好處就是:降低成本。以下是截至 2018 年 8 月(寫這篇文章的時候)Cloud TPU v2 的使用價格。
Cloud TPU v2 的價格,截至 2018 年 8 月。
斯坦福大學釋出了深度學習和推理的基準套裝 DAWNBench。你可以在上面找到不同的任務、模型、計算平臺以及各自的基準結果的組合。
在 DAWNBench 比賽於 2018 年 4 月結束的時候,非 TPU 處理器的最低訓練成本是 72.40 美元(使用現場例項訓練 ResNet-50 達到 93% 準確率)。而使用 Cloud TPU v2 搶佔式計價,你可以在 12.87 美元的價格完成相同的訓練結果。這僅相當於非 TPU 的不到 1/5 的成本。這正是神經網路領域特定架構的威力之所在。
如何用一件奇妙的技術連線谷歌服務,如谷歌搜尋,街景,谷歌照片和谷歌翻譯?原來他們都使用谷歌的Tensor處理單元,也就是TPU,加速他們在幕後的神經網路計算。我們去年宣佈了TPU,最近對其效能和架構進行了詳細研究。
簡而言之,我們發現TPU的效能比現代CPU和GPU高15-30倍,每瓦效能提高30-80倍。 這些優勢有助於Google的許多服務大規模執行最先進的神經網路並且價格合理。 在這篇文章中,我們將深入瞭解Google TPU內部的技術,並討論它如何提供如此出色的效能。
通往TPU的道路
雖然谷歌早在2006年就考慮過為神經網路構建專用積體電路(ASIC),但2013年情況變得緊迫。那時我們意識到神經網路快速增長的計算需求可能需要我們將數量增加一倍。 我們經營的資料中心。通常,ASIC開發需要幾年時間。 然而,就TPU而言,我們在短短15個月內就將處理器設計,驗證,構建並部署到我們的資料中心。 TPU專案的技術負責人Norm Jouppi(也是MIPS處理器的主要架構師之一)以這種方式描述了sprint:
‘我們做了一個非常快速的晶片設計。 這非常了不起。 我們開始釋出第一個晶片,沒有錯誤修復或掩碼更改。 考慮到我們正在招聘團隊,因為我們正在構建晶片,然後僱用RTL(電路設計)人員並急於僱用設計驗證人員,這是忙亂的。’
TPU ASIC採用28nm工藝製造,執行頻率為700MHz,執行時功耗為40W。 由於我們需要儘快將TPU部署到Google的現有伺服器,因此我們選擇將處理器打包為外部加速卡,該卡可插入SATA硬碟插槽以進行插入式安裝。 TPU透過PCIe Gen3 x16匯流排連線到主機,提供12.5GB / s的有效頻寬。
神經特定的架構
在本文中,我們已經看到TPU卓越效能的秘訣在於其對神經網路推理的專注。 當我們決定專注於神經網路推理時,量化選擇,CISC指令集,矩陣處理器和最小設計都成為可能。 谷歌有信心投資TPU,因為我們看到神經網路推動了計算的正規化轉變,我們預計未來幾年TPU將成為快速,智慧和價格合理服務的重要組成部分。
由於CPU和GPU等通用處理器必須在各種應用程式中提供良好的效能,因此它們已經發展出了無數複雜的,以效能為導向的機制。 作為副作用,這些處理器的行為可能難以預測,這使得難以保證對神經網路推斷的某些延遲限制。 相比之下,TPU設計是嚴格的最小和確定性的,因為它必須一次只執行一個任務:神經網路預測。
此外,谷歌還發布了Edge TPU,特定用途 ASIC 晶片,專為在裝置上執行 TensorFlow Lite ML 模型而設計。針對Edge TPU的新裝置是:AIY Edge TPU Dev 開發板和 AIY Edge TPU 加速器,二者皆採用 Google 的 Edge TPU 晶片。
針對Edge TPU的新裝置是:AIY Edge TPU Dev 開發板和 AIY Edge TPU 加速器,二者皆採用 Google 的 Edge TPU 晶片。
谷歌CLOUD TPU——以前所未有的速度訓練和執行機器學習模型
加速機器學習
機器學習 (ML) 能夠大大簡化我們的生活。 計算機視覺和自然語言處理能力的改善有助於我們每個人更自然地與技術產品互動。企業依靠機器學習來加強網路安全並降低欺詐風險。機器學習帶來的醫學成像上的進步能夠提高醫療診斷的準確性並使更多人得到治療,最終挽救更多生命。
加快機器學習工作負載
這些革命性的 Cloud TPU 旨在加速 TensorFlow 機器學習工作負載。每個 Cloud TPU 可提供最高每秒 180 萬億次浮點運算的效能,讓您有足夠的計算能力來訓練和執行最先進的機器學習模型。Cloud TPU 可以幫助您進行業務轉型或在研究上取得新突破。
按需使用的機器學習超級計算機
根據需要使用強大的機器學習加速器,而無需預先投入資本。無論您的任務需要使用 Cloud TPU 的時間是幾小時還是幾周,您都可以實現所需的機器學習加速,而無需建設自己的資料中心。
輕鬆遷移到雲端
由於 TensorFlow 開放原始碼,因此您可以輕鬆地將已在 TensorFlow 中執行的機器學習工作負載遷移到 Cloud TPU 中小試牛刀。利用 TensorFlow 的高層級 API,您可以在 CPU、GPU 和 TPU 之間遷移模型,而無需更改太多程式碼。如果您有圖片分類或機器翻譯需求,我們可以提供許多適合在 TPU 上執行的模型。您只需提供您的資料、下載參考 TensorFlow 模型並進行訓練即可。
借力於 Google 的 AI 創新
藉助於 Google 也在使用的加速器,開發世界一流的機器學習產品。Cloud TPU 專為加速最尖端的機器學習工作負載(包括訓練和預測)而打造。
CLOUD TPU 特性
高效能
每個 Cloud TPU 可提供最高每秒 180 萬億次浮點運算的計算效能以及 64 GB 的超高頻寬記憶體。
Google Cloud 的優勢
在 Cloud TPU 上執行機器學習工作負載,並從 Google Cloud Platform 領先業界的儲存、網路和資料分析技術中獲益。
參考模型
使用 ResNet-50 和 RetinaNet 等模型在 Cloud TPU 上解決圖片分類和物件檢測問題。利用來自 Tensor2Tensor 的 Transformer 模型嘗試機器翻譯和語言建模。
整合
Cloud TPU 及 Google Cloud 的資料和分析服務與其他 GCP 產品在核心層面全面整合,所有服務都採用統一的訪問許可權管理機制。
將 Cloud TPU 與自定義機器型別相關聯
您可以將 Cloud TPU 與自定義虛擬機器型別相關聯,這有助於您根據具體工作負載以最優方式平衡處理器速度、記憶體和高效能儲存資源。
搶佔式 Cloud TPU 測試版
為容錯式機器學習工作負載(例如設有檢查點、長時間執行的訓練,或者基於大型資料集的批次預測)使用搶佔式 Cloud TPU,從而節省資金。搶佔式 Cloud TPU 的價格比按需例項低 70%,從初次實驗到大規模超引數搜尋,讓您一切工作的成本都比以往更加經濟低廉。
回覆列表
我覺得他是科技成果,不是科技本身。tpu材料是Thermoplastic Urethane的簡稱,中文名稱為熱塑性聚氨酯彈性體。TPU是由二苯甲烷二異氰酸酯(MDI)或甲苯二異氰酸酯(TDI)等二異氰酸酯類分子和大分子多元醇、低分子多元醇(擴鏈劑)共同反應聚合而成的高分子材料。
它的分子結構是由二苯甲烷二異氰酸酯(MDI)或甲苯二異氰酸酯(TDI)和擴鏈劑反應得到的剛性嵌段以及二苯甲烷二異氰酸酯(MDI)或甲苯二異氰酸酯(TDI)等二異氰酸酯分子和大分子多元醇反應得到的柔性鏈段交替構成的。