近日,百度智慧雲釋出面向機器學習的HPC解決方案,這將加速機器學習在各個行業的落地速度。
機器學習是當下使用最廣泛的人工智慧技術之一,與之相匹配的HPC平臺也愈加受到市場重視,從超算TOP100的變遷中就可見一斑。
從下圖中可以看出,2015年開始,面向資料分析和機器學習的超算平臺開始快速增長,2017年更是佔比超過50%。除了傳統HPC的行業例如科學計算、地理資訊等在構建基於機器學習的HPC,更多行業也開始構建基於機器學習的HPC系統,以競爭行業AI能力的領先地位。
隨著人工智慧落地各行各業,如何構建面向機器學習的HPC系統,讓AI模型的構建過程更加簡單便利,快速實現AI的行業落地,助力企業快速佔據行業領導者地位,商業價值極大。但需要關注的是,面向機器學習的HPC系統與傳統HPC系統有著很大的差異,傳統的HPC構建模式並不能很好地適應機器學習。
為了加速機器學習的行業落地,在2019百度AI開發者大會上,百度智慧雲企業級AI開發平臺BML聯合ABC Storage私有云儲存產品釋出面向機器學習的HPC解決方案。
該方案可提供高效的端到端機器學習演算法算力應用平臺和麵向機器學習的高效能儲存平臺,一站式完成資料預處理、模型訓練與評估、釋出預測服務等工作,快速實現行業資料的AI能力生產落地。
面向機器學區的HPC系統
面向機器學習的HPC系統和傳統HPC系統有很大的差異,雖然從採購模式上和基礎算力構建上類似,但是兩者核心完全不同,主要差異性如下:
一是演算法算力。演算法框架是基於機器學習和深度學習演算法,算力中心更集中在GPU。
二是儲存層。機器學習的大量應用計算機視覺領域,主要處理的資料是海量的圖片、影像、語音等非結構化資料。傳統HPC方案在非結構化資料處理上並不能適應基於深度學習的HPC場景的需求,儲存系統需要滿足訓練過程中數億甚至百億的圖片、影像的儲存和吞吐要求,效能、效能的穩定性都有全新的技術要求。
五大特點 針對超算場景
百度智慧雲基於深度學習的HPC方案,完全針對機器學習超算場景設計,具有高效能、高效率、易用、靈活、安全的特性:
高效能 系統採用全分散式架構,擁有高併發能力,支援超大規模場景。
高效率 AI訓練是一個流程化系統,檔案在流程中搬移的時間成本非常高。通過採用ABC Storage高效能儲存軟體引擎+Optane高效元資料管理介質+QLC SSD高性價比快閃記憶體,面向機器學習的HPC方案能覆蓋所有流程,資料一次寫入,整個生命週期不需要搬移,能持續提供高效能、高穩定的吞吐保障。
易用 作簡單,上手迅速,支援一站式開發部署,覆蓋了AI開發&部署的全工作流程。一個平臺就能完成發起訓練任務、獲取訓練模型、啟動預測服務等全流程環節。
靈活解耦 全面支援主流ML/DL框架,同時支援自定義第三方軟體庫及使用者定義叢集。
安全 機器學習的資料集通過大量人力標註,具有極高的商業價值。平臺可以提供完整的資料許可權控制,保障資料使用安全。
更多能力提供,優勢明顯
除了優於傳統HPC系統的高效能、高穩定、安全靈活等特點,百度智慧雲面向機器學習的HPC解決方案還具備更強的相容性與可擴充套件能力,以及完整的生態解決方案能力,能夠面向不同特徵的使用者,提供完備的解決方案,加速AI在各行業落地。與普通的HPC系統相比,百度智慧雲面向機器學習的HPC解決方案具有以下四大明顯優勢:
全面的功能和體驗 提供機器學習和深度學習開發能力,支援主流機器學習與深度學習框架。此外,還提供互動式(Notebook)、視覺化(拖拽)、自動化三種建模體驗,讓不同研發能力的客戶都能快速實現模型的訓練、評估和預測。
支援飛槳(PaddlePaddle)等主流深度學習框架 實現資源的精細化管理和排程,支援GPU多機多卡和GPU虛擬化,同時支援百度飛槳最新版本、Tensorflow最新版本,並能就其他主流深度學習框架按需靈活擴充套件。此外,通過內建影象/視訊(CV類)模型生產線,能夠以產線方式支援CV類模型的流程化、標準化、高效化開發生產。
開放上下層介面,整合方便 提供Open API/SDK介面,便於客戶上層應用無縫對接,客戶的自有模型、第三方模型都能快速匯入並服務。產品分層設計、介面開放,便於與客戶私有云、本地機器、大資料平臺、運維平臺等已有環境有效對接。
一體化交付服務 支援V100 GPU卡、百度自研GPU Box(Xman3.0),能夠滿足客戶多種算力需求,整合百度智慧雲專業且豐富的硬體供應與交付經驗,能力覆蓋全面,一條龍服務縮短交付週期。
儲存的挑戰交給ABC Storage
基於機器學習的AI能力需要大量的算力和資料樣本集,結合演算法模型反覆針對資料進行訓練,才能提供用於商用的AI能力模型。在訓練過程,儲存效能和穩定性尤為關鍵。
效能方面。百度智慧雲針對該場景,採用Optane+QLC SSD的硬體方案,結合百度智慧雲私有云儲存ABC Storage的高效能物件儲存引擎,在5臺儲存叢集規模下,即可滿足200臺GPU伺服器針對100億小檔案的併發吞吐要求。
穩定性方面。ABC Storage採用Optane作為元資料管理儲存介質,可以保障檔案數量增長以及讀寫混合等綜合場景下提供高效能穩定的吞吐能力。
值得一提的是,ABC Storage支援InfiniBand網路,也是面向機器學習首推支援InfiniBand的全閃物件解決方案。作為是HPC場景中不可或缺的高效能網路系統,能提供更低延遲和更快網路故障恢復速度的InfiniBand網路是HPC的重要保障。
百度智慧雲面向機器學習的HPC平臺,以自身優異的效能及完整的方案解決能力,已經為眾多領域的客戶帶來實際價值。隨著人工智慧與各產業的結合向縱深發展,優秀AI平臺的價值將日益凸顯。未來,百度智慧雲基於深度學習的HPC方案將把握前沿技術,不斷完善與創新,通過端到端的高效、開放、生態化的能力,助推更多企業和研究機構的智慧化升級。