2020年6月至12月,由莫斯科國立大學攜手華為舉辦的全球資料壓縮大賽,吸引了來自世界各地的軟體工程師和研究人員廣泛參與。本次大賽累計獲得5000+全球儲存專家關注,大賽獲勝者提交的演算法作品壓縮效果突出,超出業界標杆演算法25%。
據IDC統計顯示,預計到2025年,全球資料量將達到163ZB。隨著資料規模爆炸性增長,客戶面臨著儲存成本上漲的巨大壓力,而壓縮演算法作為儲存領域的關鍵根技術,能將儲存資料量進行大幅度壓縮,從而降低資料的儲存成本。
雖然壓縮演算法對降低資料儲存成本會有重大利好,但由於壓縮演算法一直以來是儲存技術中的重磅難題,多年來未有突出成果,且壓縮演算法的研究和最佳化目前還侷限在小部分演算法研究專家的圈子。為突破壓縮演算法面臨的瓶頸,激發資料壓縮領域的活力,同時促進資料壓縮根技術的研究,華為攜手莫斯科國立大學舉辦了此次全球資料壓縮大賽。
此次大賽按資料型別和處理速度2個維度評測參賽者的資料集演算法成果,即根據文字、影象、混合、分塊混合4種資料場景,逐一考察其在高效能、均衡、高壓縮率這3種測試類別下的測試結果。
在上述4種資料場景中,混合資料分塊壓縮場景的重要性尤其突出,它可模擬主存產品壓縮演算法面臨的壓縮問題,對儲存產品中的壓縮演算法設計有重要借鑑意義。
與此同時,在以上3種測試類別中,效能不僅影響演算法的可用性,也反映著演算法需要佔用的計算資源,壓縮率則體現出演算法的收益。參賽者使用部分樣本資料集設計和最佳化壓縮演算法,大賽評委最終根據其完整的資料集測試結果進行排名。
本次大賽重磅看點1
參賽選手人才輩出,
均為來自全球各地的壓縮演算法高手
大賽囊括眾多業界頂尖高手,包括PPMd演算法的作者Dmitry Shkarin,Kanzi compressor的作者Frederic Langlet,BCM的作者Ilya Muravyov等業界大咖。
大賽中包攬諸多獎項的選手Peter Thamm表現尤其令人矚目,其設計的pglz演算法在壓縮率和效能上,遙遙領先於業界公認的標杆演算法,打破了快速壓縮演算法的一般認知,指引了壓縮演算法最佳化方向。
壓縮領域的新人選手Konstantinos Agiannis表現同樣不俗,其參賽演算法在文字場景測試中的壓縮率和壓縮效能,均超過業界公認的標杆演算法。
參賽選手Andreas Debski的演算法在快速影象壓縮領域,僅用同水平的效能就達到了業界公認標杆演算法120%的壓縮率,展現了深厚的影象壓縮演算法功底。
本次大賽重磅看點2
評委會陣容蔚為壯觀
委員均是在壓縮領域享有盛譽的技術專家
評委會主席Dmitriy Vatolin教授“身兼數職”,不僅是莫斯科國立大學圖形和媒體實驗室主任,也是世界知名資料壓縮和影片處理網站compress.ru網站的聯合創始人,擁有超過20年的資料壓縮和影象處理經驗,其實驗室主辦的Video Codecs Comparison已成功舉辦14屆,吸引了諸多全球知名企業的積極參與。
評委會委員Alexander Rhatushnyak身為壓縮領域知名專家,同時也是JPEG-XL標準的聯合創始人,多次獲得壓縮領域知名賽事Hutter Prize的冠軍。
評委會委員Eugene Shelwien是壓縮演算法全球最大論壇Encode.su的管理者,PowerArchiver軟體首席演算法專家,PPMY和ASH等壓縮演算法的作者,其開發的演算法廣泛應用於影象壓縮領域。
此次大賽獲得了業界專家的高度關注,LZ4,ZSTD演算法的作者Yan Collect、CCM, RZM演算法的作者Christian Martelock等多個壓縮領域頂級專家,紛紛表示大賽給壓縮領域注入了新鮮血液,對大賽的成功舉辦和賽事成果給出了積極正面的評價。
大賽評委會主席Dmitriy Vatolin教授說:
“ 我們對比賽結果非常滿意,本次大賽不僅吸引到了壓縮演算法專家的熱烈參與,而且取得了非常卓越的成果。在某些類別中,優勝者演算法所達到的壓縮效果相較業界標杆演算法提升了25%。由此可見,相同效能下新的壓縮演算法在業界通用演算法壓縮效果的基礎上提升25%,是完全切實可行的。資料壓縮領域很少舉辦此類競賽,我們為成功舉辦這場競賽而感到自豪,這將會給壓縮領域注入新的活力。”
“ 大資料時代儲存資源更加珍貴,提升每個位元的資訊量,最大化每個儲存單元的價值,是資料儲存領域主要目標,而壓縮演算法作為決定儲存系統性價比的核心演算法,則是實現這個目標的關鍵根技術。華為希望透過舉辦壓縮演算法大賽吸引更多的專家投入到壓縮領域的研究中,推動這個領域的技術進步。我們欣喜地發現這次大賽獲得了壓縮領域以及非壓縮領域專家的高度關注,並湧現出了眾多優秀演算法成果和領域科研工作者。比賽結果讓我們有信心繼續贊助該項賽事,持續推動壓縮領域的技術創新。”
華為俄羅斯研究院院長周紅表示:
“ 資料是智慧世界的核心基石,全世界每一秒都會有數以億計的資料產生,在有限的資源下如何實現更快、更可靠、更低成本的資料儲存,這將是未來智慧世界的一個核心挑戰。壓縮演算法是提升儲存能力的核心技術之一,透過舉辦壓縮演算法大賽希望可以搭建一個交流平臺,促進全球專家進行思想碰撞,擦出新的火花。本次大賽有幸獲得來自十多個國家相關領域專家的關注和參與,大賽成績同樣讓人欣喜。我們堅信這只是一個開始,華為未來一定會繼續大力支援此類大賽的舉辦,透過技術創新源源不斷地創造知識和價值。”
華為作為資料儲存領域的“攻堅者”,正逐年加大對前沿科學研究的投資,此次聯合莫斯科國立大學舉辦的全球資料壓縮大賽,便是華為攜手產學研攻堅業界難題道路上的剪影。未來,華為公司仍會堅定不移地在資料儲存研究領域持續投入,與產學研各界生態夥伴共建融合、智慧、開放的資料基礎設施。