首頁>技術>

前兩期,我們透過部署管理節點和集群系統配置了叢集。在叢集配置好了之後,就需要對搭建的整個叢集做一整套效能測試,也就是超算實施搭建的第三步——叢集效能測試

(超算實施搭建四大模組示意圖)

那什麼叫效能測試?效能測試又有什麼作用呢?

「效能測試」是指透過自動化的測試工具模擬多種正常峰值及異常負載條件來對系統的各項效能指標進行測試,用於驗證軟體系統是否能夠達到使用者提供的效能指標,同時發現存在的效能瓶頸,最後期望起到最佳化作用。效能測試可以評估系統的能力、識別體系中的弱點、對系統進行調優、檢測軟體中的問題、驗證叢集的穩定性和可靠性等等。

因此,效能測試在超算平臺搭建實施過程中是至關重要的環節。  

(四種性能測試指令碼展示)

第一步是對於cpu效能的測試,即linpack測試

「linpack」是一種用於測試高效能計算機系統浮點效能的基準測試程式,透過利用高斯消元法求解一元N次稠密線性代數方程組,以評價高效能計算機的浮點效能。

作為衡量計算機效能的指標,其原理是使用 CPU 做大量的矩陣計算。簡而言之,可以把linpack測試理解成一個矩陣大小的測試,透過不斷調整每個矩陣得到最大值,最大值並不會超出叢集的負載壓力,所以一般會是記憶體大小開根號乘以一萬,得到最佳的矩陣大小。

具體一點來說,linpack 測試包括三類:linpack100、linpack1000和HPL。linpack100求解規模為100階的稠密線性代數方程組,linpack1000要求求解1000階的線性代數方程組,這兩者目前使用較少。現代多用HPL進行測試,HPL即High Performance Linpack,也叫高度平行計算基準測試,它對陣列大小N沒有限制,更適用於現代高效能計算機叢集。

接下來iozone效能測試

「iozone」是一個檔案系統的效能檢測工具,可以測試不同作業系統中檔案系統的讀寫效能。我們也可以把iozone效能測試理解成對於我們後端儲存讀寫效能的一個測試,包括8k/64k/128k/1M/4M/8M/16M這些儲存大小,分別對應我們的block size(磁碟的塊大小)。

這裡要說一下,磁碟是由碟片組成的,會分成一個個扇區,最大的硬碟一個扇區才4K。磁碟裝置之上是檔案系統,而檔案系統不是一個扇區一個扇區的來讀資料的,這樣太慢了,所以檔案系統就引入了block size這麼一個概念,它是一個塊一個塊讀取的。

檔案系統的測試軟體是針對檔案系統層提供的功能進行測試,包括檔案的開啟關閉速度以及順序讀寫,還有隨機位置的讀寫以及程序併發數目等各個方面進行詳細的測試。在測試檔案的讀寫效能方面,iozone測試範圍廣,指標精確。

另外值得一提的是,測試時候應注意設定的測試檔案大小一定要大過你的記憶體(最佳為記憶體的兩倍大小),不然linux會給你的讀寫內容進行快取,會使數值非常不真實。

然後是對記憶體的測試,即stream測試

「stream」是綜合性的記憶體頻寬測試,測試成績以MB每秒來衡量。隨著處理器處理核心數量的增多,記憶體頻寬對於提升整個系統性能越來越重要,處理核心和記憶體頻寬比對系統性能有著重大的影響,如果某個系統不能夠足夠迅速地將記憶體中的資料傳輸到處理器當中,若干處理核心就會處於閒置狀態,等待記憶體資料傳輸過來,而這其中所產生的閒置時間不僅會降低系統的效率還會抵消多核心和高主頻所帶來的效能提升因素。

stream在測試記憶體方面表現卓越,其透過fortran和C兩種高階且高效的語言編寫完成,由於這兩種語言在數學計算方面的高效率, 使得 stream 測試例程可以充分發揮出記憶體的能力。stream 具有良好的空間區域性性,是對 tlb 友好、cache友好的一款測試,支援copy 、scale 、 add、 triad四種操作。

需要注意的是,stream 測試得到的是可持續執行的記憶體頻寬最大值,而並不是一般的硬體廠商提供的理論最大值。

最後是iperf網路延遲的效能測試

效能測試環節中對網路效能的評估必不可少,該評估主要是監測網路頻寬的使用率。

「iperf」作為一款基於tcp/ip和udp/ip的網路效能測試工具,它可以用來測量網路頻寬和網路質量,還可以提供網路延遲抖動、資料包丟失率、最大傳輸單元等統計資訊。我們可以根據這些資訊瞭解並判斷網路效能問題,從而找到HPC平臺實施搭建中網路故障的原因。

保證網路效能的基礎是將網路頻寬實現最大化,但是由於網路設計不合理、網路存在安全漏洞等原因,都會導致網路頻寬利用率不高。為了找到利用率不高的原因,就需要對網路傳輸進行監控,監控需要使用到iperf這樣的網路頻寬測試工具。

叢集效能過關,超算平臺實施搭建使用者無感知的部分就算是全部完成啦!(前三步驟中除了作業排程軟體是對使用者可見的,其他都不可見)

(沒錯還是這張圖)

最後就要說到最上層、最貼近使用者的安裝部署,用來維護使用者的第四部分——《統一智慧管理篇》。細心的小夥伴一定發現了此篇只有三個問號,這裡賣一個關子,奧工自研的智慧管理軟體即將隆重登場,歡迎下期揭曉!

- END -

「奧工科技」

奧工科技作為一家專業的融合計算服務提供商,面向企業級IT客戶提供端對端、可資源異構、全生命週期的HPC全棧服務,其中包括資源選型、專案規劃、實施服務、運維服務、運營支援、定製開發,全棧服務客戶HPC叢集建設需求。

8
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • autojs實現抽象類的繼承