摘要:AI進入產業的門檻變高,開發者想要做出優秀的AI模型就不得不在算力和成本之間折中,怎麼辦?
為幫助企業在AI落地過程中進一步實現降本增效,華為雲推出AI黑科技——彈性訓練。
今年,AI界最被熱議的當屬OpenAI最新發布的GPT-3模型,作為迄今為止釋出的最大自然語言處理(NLP)轉換器,它的模型引數有1750億個,使用了45TB的資料,算力要求為3640pfs-day,訓練費用高達1200萬美金。
如果AI開發者想要使用大資料來訓練模型,就需要超強的算力,同時不得不支付高昂的訓練費用。這就導致AI進入產業的門檻變高,開發者想要做出優秀的AI模型就不得不在算力和成本之間折中。
一方面,在預算投入有限的情況下,AI開發者只能使用較弱的算力,從而造成AI服務開發的滯後。另外一方面,對於雲廠商來說,由於使用者使用時間和規模的靈活性,經常會存在空閒的計算資源沒有被使用,造成浪費。華為雲AI黑科技彈性訓練動態縮減和擴充套件節點,很好地解決了AI開發者算力不足和雲廠商算力空閒的矛盾。
靈活調配算力資源,彈性訓練為AI開發降本增效華為雲彈性訓練方案實時監控資源池的算力情況,如果有空閒的計算資源,會把該資源分配給正在訓練中的彈性作業,提高該訓練作業的算力,從而使該訓練作業快速收斂。在有新任務提交時,華為雲彈性訓練方案又會根據資源池空閒資源和彈性作業的使用情況,把資源回收後給新起的任務,保證新的訓練的快速效應。
彈性訓練流程
彈性訓練可以根據模型訓練速度的要求,自適應匹配最佳資源數。具體在產品上,它提供兩種模式。
一是Turbo模式,可以充分利用空閒資源加速已有訓練作業,在大多數典型場景下加速效率大於80%,訓練速度提升10倍,並且不會影響模型收斂精度。
二是Economic模式,可以透過最大化資源利用率,給開發者提供極致的價效比,在大多數典型場景下可以提升價效比30%以上。
工程和演算法多個維度最佳化,降低模型訓練難度華為雲彈性訓練方案需要解決多個複雜的分散式訓練問題:如何實現動態多次彈性後訓練的收斂過程和收斂結果和普通非彈性訓練等價一致、如何保證彈性過程中優雅切換、如何解決混部等場景中straggler拖累系統性能、如何使使用者減少程式碼修改、如何選擇合適的通訊框架從而減少梯度匯聚時間。華為雲彈性訓練方案從工程和演算法多個維度進行最佳化,解決了上述問題,實現了訓練的準確率不降低、加速比理想。
具體來說,華為雲彈性訓練方案具有易用、高效、優雅的訓練框架和等價的訓練過程,普惠的強大算力、高利用率的雲資源四大優勢。
易用、高效、優雅的訓練框架華為雲的彈性訓練基於易用高效的訓練框架,使用者只需要根據要求,簡單的修改程式碼,就可以滿足彈性訓練的要求。
彈性訓練框架支援NCCL通訊,支援all_reduce或點對點的組網模式,可以高效的進行梯度聚合,因此有很好的加速效能。
同時,它也支援多GPU/NPU效能監控,支援基於每個GPU/NPU的效能進行訓練負載動態調整,在混部等多GPU/NPU效能不均衡的場景下,依然具有很好的效能。
除此之外,彈性訓練框架可以保證彈性過程是優雅的。彈性訓練過程中涉及到節點數的變多和變少。在節點數變多時,它可以保證老節點在新節點切入前正常訓練,新節點在準備好平滑的切入訓練,因此不需要老節點長時間等待。在節點數變少時,彈性訓練框架可以讓釋放的節點平滑退出。
等價的訓練過程彈性訓練過程節點數是動態變化的,在彈性的動態過程中如何調整訓練超參,保證模型的收斂是一個巨大的挑戰。華為雲的彈性訓練方案在理論上可以保證,在初始設定正確的訓練超參後,節點在彈性過程中變多或變小時,訓練的模型的收斂過程和結果是一致的。因此使用者在使用訓練方案時,不需要因為彈性而引入過於複雜的超參調整策略,另外也不需要擔心彈性的引入對收斂結果造成影響。等價訓練過程讓使用者可以放心的使用彈性訓練。
普惠的強大算力相比傳統的直接購買確定的算力方案,AI開發者在投入很少的情況下,可以獲得巨大的算力。使用者提起彈性訓練作業後,在訓練過程中可以獲得華為雲中空閒的運算資源,算力迅速增強,因此在較短的時間內就可以把訓練跑完,從而實現高頻的訓練迭代、快速的服務上線變現。彈性方案真正讓使用者實現了用得起。
高利用率的雲資源傳統的資源強化定製方案,導致無法盤活空閒資源,不能根據實時資源使用情況,動態調整已經訓練的作業。因此在傳統方案中,經常會出現訓練任務算力不足、耗時漫長的同時資源池中大量資源閒置的矛盾局面。
相比之下,華為雲彈性訓練方案具有極大的靈活性。基於彈性訓練方案,華為雲實時監控資源池中資源的情況,動態調整彈性訓練作業的算力情況,當資源池中有空閒資源時,就將空閒資源分配給訓練作業,保證資源的充分利用。
在彈性方案確定後,華為雲的彈性訓練方案自動監控調整,無需人為參與,方便高效。該方案滿足了雲服務商充分利用算力資源的需求和AI開發者的訴求,實現了雙贏。
彈性訓練方案應用前景廣闊隨著資料的爆發式增長,AI進入行業當中越發需要大算力的支撐來處理大資料。未來,彈性訓練方案具有廣闊的應用空間。使用華為雲的彈性訓練方案在ImageNet(大型視覺化資料庫 )上訓練resent50模型。在開始時使用1節點訓練模型,在有空閒資源後,將訓練節點調整為16,此時的線性加速比為10。在訓練60個epoch後top1 accuracy為76.1%。精度保持一致的情況下,華為雲的彈性訓練方案使收斂速度快了9倍。
華為雲一直秉持著“將簡單留給開發者,複雜留給華為雲”的理念。華為雲AI不斷迭代創新,推出黑科技功能,加速AI進入產業,落地實際場景,讓千行百業共享AI技術紅利。