算力經濟時代,高效能計算已成為促進科技創新和經濟發展的重要手段,許多重要科學問題非常複雜,需要強大的計算機進行數值模擬,這些問題被視作科學上的重大挑戰,同時人工智慧大資料和計算機技術的飛速發展,各行業的資料中心業務不斷演變,資料量越來越大,型別越來越多,資料結構也趨於複雜化。
傳統的資料庫各裝置採取獨立方式,並且需要較大的部署空間,存在部署難、成本高、散熱難等缺點,難以滿足使用者的要求。另一方面,伺服器若要更長時間發揮高效能,內部CPU、記憶體等裝置的穩定性很重要,而長時間大規模的高效能計算所產生的持續高溫,不僅會掉頻,還有可能導致裝置損毀,伺服器散熱方式的選擇也至關重要。
本期,E企研究院“超融合加速季”聚焦全液冷散熱的液冷超算智慧一體機解決方案,鎖定AMAX(蘇州超集資訊科技有限公司)全液冷散熱一體機,解析其靈活、高效、易用的可擴充套件融合架構,如何解決客戶難題。
一體化液冷散熱
液冷超算智慧一體機是AMAX基於英特爾®伺服器系統 S9200WK產品家族中的 2U 4節點伺服器,搭配一體機管理平臺而設計,為使用者提供高效的高效能計算資源排程管理平臺,整櫃採用全液冷設計,極致降噪,配有顯示面板,實時監控冷卻系統等若干重要引數。
同時可相容AI應用,提供統一的管理視窗,整合多個任務排程器,實現硬體層面高密度、高效能、低功耗、易管理等特性的同時,藉助一體機管理平臺為使用者提供靈活、高效、易用的可擴充套件融合架構,實現開箱即用。
英特爾®伺服器系統 S9200WK 專為第二代英特爾®至強®鉑金9200處理器而設計,每節點可搭載兩顆9200處理器及最多24條DDR4 DIMM插槽,可最大程度地提高處理器和記憶體頻寬,從而為要求苛刻的計算使用提供領先的效能,專用於效能最佳化的專用資料中心模組,非常適合在高效能計算(HPC)和人工智慧應用中使用。
方案採用2U 4節點的S9200WK 伺服器系統,每節點板載兩顆9200處理器,每顆CPU TDP最高可達400W,整機多達448個核心。2U空間內一共8顆高功率9200處理器,對於散熱的要求非常高,必須在極短的時間內,將裝置產生的熱量迅速帶走,保證其高效的執行效率。
經過反覆測試與比較,方案最終採用分體式水冷散熱與機櫃結合的方式,整櫃後方為分體式水冷裝置,整櫃前方用於伺服器上架,兩側的水管與伺服器相連,整櫃一側為進水管,一側為出水管。如此設計可以確保,在同一時間內,冷卻液會流經所有伺服器,將熱量整體帶走,統一回到CDU等裝置進行熱交換,保證櫃內伺服器都處於低溫狀態。同時,加固連線頭和止水閥設計,能夠保證任意伺服器的靈活安裝或拆卸;其次,與伺服器相連的水管採用軟管設計,在不影響流速及散熱效果的前提下,避免了硬質水管隱含的斷裂和長期使用的漏液風險。
一體化管理平臺
AMAX的液冷超算智慧一體機整體採用4臺搭載Intel® Xeon® Platinum 9282 Processor的S9200 WK伺服器,每臺伺服器內含4個計算模組,每個模組板載兩顆9282,整櫃16個計算模組總計32顆9282處理器,相當於16臺高效能伺服器。如此多的模組在管理與排程上,使用傳統的排程與管理方式具有較大的困難與阻礙。
基於一體化設計理念,AMAX為超算智慧一體機配置了一體化管理平臺,幫助使用者建立一個一致性平臺,HPC與AI應用靈活切換,無需遷移平臺。
核心配置如下:
液冷超算智慧一體機的核心功能如下:
◆ 統一管理介面:提供基於Web的管理圖形使用者介面和叢集管理Shell(SMSH),提供單系統檢視,透過“單窗格”管理所有內容,管理功能操作簡單,所有任務透過直觀的視覺化介面執行;
◆ 快速環境部署:允許使用者在裸機上部署完整叢集,幾分鐘即可部署完成,並有效進行管理操作,支援Linux、Red Hat、CentOS等發行版,具備HPC工作負載管理器、Kubernetes、Spark和深度學習庫等元件;
◆ 任務排程管理器:整合SLURM、PBS Professional,Univa Grid Engine,Moad,LSF,OpenLava,OpenGrid Scheduler,Maui等多種任務排程器,可實時監控節點的健康狀態;
◆ 機器學習庫和框架:內建多種主流的機器學習庫和框架,例如NVIDIA CuDNN,TensorFlow,CUDA,TensorRT,Dynet,Fastai,JupyterHub,NCCL2,MXNet,PyTorch,Chainer,CNTK,Horovod,Keras等;
◆ 監控管理:當一體機超出預定的系統極限值時,一體機管理軟體會自動採取措施,從而節省時間並防止硬體損壞。
推動科研高效有序進行
清華大學計算機系某研究團隊主要研究方向是計算化學,為保證研究順利進行,需要打造高通量計算平臺,以便完成傳統計算模式無法完成的大量結構計算需求,並透過併發計算研究系統的多種性質,迅速積累出所需的資料庫,且支撐VASP、Gaussian09、MaterialStudio、Spartan 14、Turbomole等各類計算模擬軟體,為研究人員提供各類計算模擬服務。
為了能夠高效、快速進行研究,該研究團隊需要建立一套快速、穩定的高通量計算平臺,但經過調研發現,該研究團隊現有機房空間小、散熱環境一般,這就要求整套方案必須具備高密度,但散熱穩定等特點。
同時該研究團隊使用VASP和Gaussian等軟體研究模型,這兩款軟體使用CPU進行高效分子動力學模擬,典型以高併發計算需求為主,對CPU的核心數和主頻有著較高的要求。
AMAX液冷超算智慧一體機,將伺服器與CDU整合到一個機櫃內,機櫃後方是CDU,機櫃前方是伺服器,透過兩側的水管進行散熱,一方面解決該研究團隊的散熱環境,另一方面也一體化交付使用者,降低了使用者組裝、運維的困難。
同時透過一體機管理平臺,可提供基於Web的圖形使用者介面或命令列介面,管理功能操作簡單,所有任務透過直觀的視覺化介面執行。一體機管理平臺整合Slurm、PBS Professional,Univa Grid Engine,Moad等多種任務排程器,可實時監控節點的健康狀態以及排程任務,同時一體機管理平臺,可對一體機內各資源設定系統極限值,當一體機超出預定的系統極限值時,一體機管理會自動採取措施,從而節省時間並防止硬體損壞。
穩定高效、開箱即用的AMAX液冷超算智慧一體機不僅滿足清華大學計算機系某研究團隊的計算平臺需求需求,還方便運維管理,使得科研人員可以專注科學研究。