眾所周知,如今我們正身處資訊爆炸的時代,隨著新基建的逐步深入,各行各業都在快速推進數字化轉型,隨之誕生的各類創新技術層出不窮。這些新技術的發展,大多都圍繞著海量資料這個主題展開。如人工智慧,就是以海量資料為生產要素;5G技術的成熟應用,為海量資料快速生成與傳輸築造了通路基礎,區塊鏈又為海量資料的去中心化交易提供了技術支撐。此類新技術的應用與推廣必然帶來海量資料的規模化聚集,數十甚至數百PB的儲存系統,將成為業界常態。應對海量儲存壓力,絕是不僅僅靠裝置堆砌來解決容量問題這樣簡單。容量的上的疊加也將引發技術的質變,儲存系統面臨諸多關鍵技術上的挑戰。
曙光是國內第一家專注海量儲存系統研製的廠商,2009年第一代全自研ParaStor分散式儲存系統誕生,奠定了構建海量資料儲存最佳解決方案的基石。同年,我們為使用者構建了當時國內最大的16PB單一儲存系統。在10多年的發展過程中,曙光始終圍繞海量分散式儲存系統進行架構的深度最佳化甚至區域性重構,以應對雲、人工智慧、區塊鏈等技術帶來的海量資料新的挑戰。今天,曙光ParaStor在科研教育、氣象環保、生命科學、能源、區塊鏈等領域打造了一個又一個海量儲存最佳實踐,完成了從單套系統23PB、56PB到百PB級別的自我技術超越,獲得了市場的高度認可。
基於多年技術積累以及多套百PB級別超大規模儲存系統研製和運維經驗,曙光公司認為,只有擁有如下核心技術研發實力,才能更好的應對各行業海量資料儲存的挑戰。
先進、創新的底層儲存技術基座
在基礎架構層面,傳統集中式儲存架構由於Scale-up擴充套件方式的侷限性,無法對海量資料的容量與效能需求實現良好的支撐,天然適合此類場景分散式儲存架構逐漸成為市場主流。為了應對海量儲存的挑戰,曙光ParaStor除了採用分散式架構之外,還可靈活選擇對稱與非對稱部署兩種模式,以更具價效比的硬體構建成本,支撐千億級別檔案、EB級儲存空間的擴充套件需要。
除了架構之外,決定儲存系統先進性的另一關鍵要素是底層資料管理技術。目前業界分散式儲存系統,大多采用ext4、xfs等開原始檔系統進行底層磁碟管理,以降低程式碼開發量,縮短產品研發週期。但這種間接的磁碟管理方式,無法更直接、高效地發揮磁碟效能。特別是在配置了數千甚至上萬塊磁碟的海量儲存系統中,單個磁碟的效能衰減會成指數級放大,最終影響儲存系統的整體效能和可靠性。為解決這個難題,曙光在ParaStor上創新性地開發了OBS本地物件管理系統。利用OBS可以精細化控制磁碟IO,使應用層的多個小隨機IO智慧組合為大的順序IO,減少磁碟操作,使資料佈局和負載更均衡,顯著提升多事務併發、IO非同步處理等海量資料應用場景的系統性能。併為熱點資料加速、自動分層、重刪壓縮等進階資料管理服務的高效執行打下了良好的基礎。
海量併發應用場景下的深度效能最佳化
海量資料應用場景下,應用IO模型複雜多樣、檔案粒度差異很大,為了匹配不同應用對頻寬、IOPS、延時的個性化需求,要求儲存系統具備從磁碟管理、網路層到協議層整個IO路徑上的深度最佳化能力。同時,隨著參與資料儲存和處理節點數量的增加,由此帶來的資源開銷也會攀升,同樣需要針對性的最佳化設計。
從建設成本角度考量,海量儲存系統仍以機械磁碟為主角。機械磁碟由於定址方式的物理設計,在處理隨機小檔案IO時會有先天的效能劣勢,單純依靠硬碟數量的增加無法應對海量小檔案的效能挑戰。曙光ParaStor基於底層OBS管理系統實現與快閃記憶體介質的深度融合,使用少量快閃記憶體高效覆蓋熱點IO需求,另一方面透過小IO合併、元資料快取、動態智慧預讀等多種方式,顯著提升海量大、小檔案混合應用場景的整體使用者效能體驗。
同時,曙光ParaStor透過高效能網路Infiniband RDMA協議支援、專屬高效能POSIX客戶端等技術,針對具體的應用場景,單流頻寬可最佳化至18GB/s,在首屆中國海量儲存系統MassStor100排行榜中,一套裸容量為100PB的儲存系統,其系統聚合頻寬高達1TB/s,代表了業界最高水準。
隨著儲存系統規模的擴大,儲存客戶端對於CPU等資源的佔用、資料網路的負載和管理壓力也會增加,一旦某個節點由於上述原因出現阻塞,將對儲存系統的效能甚至可用性造成重大影響。曙光ParaStor分散式儲存系統,針對大規模叢集的資源佔用進行了多重細粒度的最佳化措施,保障了儲存系統性能的恆定發揮和資料訪問的可用性。
超大規模下的資料一致性和可靠性保障
在資料一致性保證層面,海量儲存系統必然伴隨著大量客戶端的併發訪問需求。透過軟體層面的高效排程,保障所有客戶端資料訪問的強一致性,避免對同一檔案的併發讀寫對彼此資料的破壞,是一個成熟海量儲存系統的必備素質。ParaStor儲存在分散式鎖(Distributed Lock Management,DLM)的使用與最佳化方面投入了大量精力,不斷提升大規模分散式鎖獲取與釋放的效能與可用性,並增加了可重入、非阻塞等特性,有效保障高併發共享訪問場景的順序、秩序與效率,在氣象環保、能源地質等海量資料處理場景得到了廣泛的應用。
在可靠性保障方面,硬體單點故障的防範只是海量儲存系統的初級需求,智慧化故障預處理與高效無感知的系統自愈才能讓系統真正可靠穩定執行。以磁碟為例,對於磁碟的單點故障,我們可以透過成熟的多副本、糾刪碼、RAID等技術實現資料重構,對於中小規模儲存系統,磁碟故障屬於小機率事件,使用者只需要在某一段時間內對前端業務效能與重構效能做簡單取捨即可。但對於一個管理著上萬塊磁碟的百PB級海量儲存系統而言,意味著平均每天會有約2-5塊磁碟故障,儲存系統大部分時間內都處於業務與重構的資源爭用狀態。如果沒有妥善的處理方式,使用者每天都會面臨著要保障生產業務效能還是保障資料安全的靈魂拷問。曙光ParaStor儲存系統為大叢集場景定向開發了內部資源動態排程管理演算法,在充分發揮硬體處理能力的基礎上有效避免資源爭搶,同時透過多重技術顯著縮短故障資料重建時間,解決了效能與可靠性衝突這個海量儲存故障處理的主要矛盾。
智慧化運維挑戰上千節點的管理
在運維管理方面,維護由數百甚至數千節點構成的海量儲存系統,僅靠傳統的管理方式顯然是不可行的,各節點間的資訊實時同步開銷會成為儲存系統的不可承受之重。曙光ParaStor在叢集通訊管理模組中,將節點按照不同角色抽象成多個管理分組,以分組為單位進行管理信令互動,增大了資訊傳遞顆粒度以降低通訊頻度,實現管理流量的去中心化錯峰互動,叢集資訊秒級同步,使系統中所有節點都能“統一思想,明確目標”,提升儲存系統的整體戰鬥力。
積土成山,風雨興焉;積水成淵,蛟龍生焉。正如常規軟體處理方式無法應對巨量資料集合的捕捉、管理與計算,而必須引入大資料等新型資料處理模式一樣,海量資料儲存在基礎架構、資料管理、效能最佳化、資料一致性、可靠性保障、運維管理等需求也需要全方位的定向深度最佳化才可能完美承載。曙光ParaStor在海量儲存領域持續深耕,正在為全國數千家使用者管理著超過10EB的核心資料,為雲計算、軌道交通、氣象環保、基因測序、能源勘探等行業使用者的海量資料管理提供了堅實穩定的保障。放眼未來,曙光儲存將繼續總結與吸收海量資料儲存系統最佳化與運維過程中積累的寶貴經驗,並在資料全生命週期管理,線上實時資料處理,以及與區塊鏈、AI、容器等新興技術深度融合等方面加強投入,為使用者提供更快速、更可靠、更智慧、更便捷的一站式資料管理服務。