首頁>科技>

摘要:資料庫從上世紀五十年代發展至今,隨著基礎設施的改變,其技術也在不斷演進。資料庫市場也從原本商業化巨頭形成的壟斷地位逐漸變為雲廠商處於領導地位,而未來在雲上,資料庫將會是兵家必爭之地。與此同時,雲原生技術、資料庫自動駕駛技術以及資料庫和大資料技術的融合使得資料庫的未來更加充滿生機。在DTCC 2020大會上,阿里雲資料庫產品管理與運營部總經理葉正盛為大家分享他對於“資料庫2025”的展望。

本文內容根據演講錄音以及PPT整理而成。

演講嘉賓介紹:

葉正盛(花名:鬥佛),阿里雲資料庫產品管理與運營部總經理,目前擔任阿里雲資料庫產品總規劃師,主要負責阿里雲資料庫的產品規劃和產品運營相關的工作。之前從事軟體研發工作十餘年,2010年開始加入阿里做“去IOE”、異地多活和雲計算方面的工作,2020年帶領團隊衝進了Gartner全球資料庫領導者象限。

資料庫發展歷程

在介紹資料庫2025的規劃之前,首先回顧一下資料庫的發展歷程。資料庫的發展離不開計算機基礎設施的發展,因此可以將資料庫的發展分為五個階段。

第一階段:上世紀五十年代的大型機時代。在這個時代,大型機可能不到100臺,基本上用在科學研究和國防等領域,當時主要是層次和網狀資料庫,比較典型的產品是IBM的IMS,IMS已經很少能夠見到,在一些金融領域還有應用。第二階段:上世紀七八十年代,此時小型機已經開始普及。不僅是在國防和科學研究,更多的是在商業領域,包括銀行這樣的系統開始應用小型機。與此同時,關係型資料庫開始誕生,出現了包括DB2、Oracle以及Ingres等之名關係型資料庫。第三階段:上世紀九十年代,此時PC機、X86以及區域網等基礎設施已經非常健全,IT應用範圍已經擴充套件到企業全面的資訊化,關係型資料庫開始蓬勃發展,出現了資料倉庫以及單機資料庫,比如SQL Server、dBase等資料庫。第四階段:到了2000年,開始進入網際網路時代。大家也都有非常深刻的體會,無論是搜尋、社交還是電商等都有非常廣泛的應用,此時像MySQL、PG、Redis、MongoDB等開源資料庫也得到了非常廣泛的應用。第五階段:今天是資料庫的“雲+端”時代。無論是新媒體、移動應用、雲計算以及物聯網等,包括今年新冠疫情導致線上教育、線上辦公都飛速發展,其實都代表著一個新的時代的開始。在這個階段,雲資料庫起到了非常大的作用。比較典型的雲資料庫產品就是AWS的RDS和Redshift以及阿里雲的PolarDB和ADB等。DB-Engines資料統計

截止到2020年12月,在DB-Engines上目前一共有363種資料庫。按照資料庫模型來看,傳統的關係型資料庫和非關係型資料庫佔比為3:1,可以看出,關係型資料庫依舊是主流。而按照商業和開源資料庫的角度來看,兩者依舊是平分天下。在商業資料庫領域,具有代表性的資料庫有Oracle、SQL Server等;而在開源資料庫領域,具有代表性的資料由MySQL和PG等。

資料庫-兵家必爭之地

為什麼大家都來做資料庫呢?AWS認為資料庫是未來的兵家必爭之地,因此一直以來對於資料庫非常重視,每年的AWS re: Invent 上都有很多關於資料庫的重磅專題釋出。一般而言,在IaaS層,也就是對於伺服器、網路和儲存這一層面,大家都有比較統一的認識,今天很多企業其實已經建設的差不多了。而更上層的就是智慧化應用,大家也正在逐漸形成統一的認識,那就是未來的應用一定是向著智慧化發展。從IaaS到智慧化應用需要經歷一定的環節,而在這個環節中,資料庫將會起到非常關鍵的作用,包括資料的產生、儲存、消費和分析,這些都是資料庫要去解決的問題。因此,我們可以看到無論是國際巨頭還是國內廠商都在資料庫裡面投入了大量的資源。

迎接新資料時代

前面的部分主要是進行回顧,接下來對資料庫的未來進行暢想。如今我們正在迎接新的資料時代,上圖中展示的資料來自IDC的報告,IDC統計預測,去年全球有45ZB資料,而到了2025年資料量將會達到175ZB。而作為新資料代表的物聯網,去年大約具有4.4ZB資料,而在2025年將會達到90ZB,也就是說僅物聯網將會佔據未來一半的資料量。此外,資料將會儲存在什麼地方呢?根據IDC的報告,去年全球大約有20%的資料儲存在公共雲上,而到2025年大約會有46%的資料儲存在公共雲,與此同時,還會有大量資料儲存在私有云上。基本上就是說到2025年,大約80%至90%的資料將會儲存在雲上。

另一個方面,新資料會從哪些地方產生呢?以前資料基本上都是由PC、手機、平板電腦產生的,而在未來,汽車、影片、智慧裝置以及工業網際網路都是新資料產生的典型場景,而且這些場景下資料產生的速度將會迅速提升。產生的資料大致分為兩類:一類就是結構化的資料,這裡的結構化資料不僅包括了關係型資料庫中儲存的關係資料,也包括了JSON、XML等之前大家稱為半結構化的資料,這樣的劃分是因為這些資料在今天使用資料庫的多模能力進行處理已經非常簡單了,不像十年前那麼複雜,因此這類的資料統稱為結構化資料。另一類是非結構化的資料,包括瞭如今無處不在的產生日誌、文字、圖片、語音、影片和檔案等,這些都是非結構化資料的代表。圖片怎麼結構化計算,影片、語音等如何轉化為向量的多維資料來幫助分析或機器學習,都需要進行結構化的資料處理。今天的資料中臺所考慮的就是如何將資料的價值最大化,同時會結合AI相關的技術來做智慧計算,這正是新資料時代的樣子。面對越來越多的資料量,如何處理結構化和非結構化的資料,存在非常多的技術挑戰和商業挑戰。

雲是資料庫最重要的發展方向

雲是資料庫最重要的發展方向,這也是Gartner的分析師給出的一個結論。其實Gartner分析師看得非常遠,早在2018年就預測2022年全球75%的資料都會存在雲上。從上圖中也可以看出,使用雲資料庫的體量其實在逐年增長,2018年是22.75%,2019年是34.68%,2022年預測是75%。

Gartner基本上每年都會發布魔力象限,所有的資料庫廠商都會非常關注魔力象限。可以看到,2013年資料庫魔力象限的領導者象限中主要包括Oracle、微軟、IBM和SAP,這幾個巨頭幾乎處於無敵的位置,所有的NoSQL廠商以及大資料廠商都在普通玩家的象限。而到2020年,領導者象限發生了很大的變化,最強的領導者已經變為了AWS,其次是微軟、谷歌、阿里雲,這四家都是雲計算廠商,這也印證了Gartner所認為的雲才是未來。無論是從市場份額,還是技術引領方面以及營銷方面,這些雲廠商所提供的資料庫都具有優秀的表現,所以才歸入領導者象限內。而其他小廠商如果不和雲結合,便很難在魔力象限中獲得一席之地。能夠進入魔力象限就已經是非常不錯的廠商了,如果能夠進入領導者象限,那就代表了Gartner認為這些廠商正在引領未來。

雲原生資料庫快速崛起

上圖的統計資料來自於DB-Engines,可以看到無論是Oracle還是DB2,他們的曲線相對而言比較平滑,其增長是非常緩慢的,而與之形成鮮明對比的是:雲原生資料庫領域發展得非常快。右圖是亞馬遜AWS、微軟Azure、谷歌雲以及阿里雲的自研雲原生資料庫全部統計資料,可以發現雲原生資料發展非常快。無論是從技術上還是生產上,雲原生資料庫代表著一種新的生產力。

資料庫支援多雲部署是最重要的戰略方向

資料庫支援多雲部署是最重要的戰略方向。無論是誰來做資料庫,如果不和雲結合,市場拓展會非常難。資料庫廠商有了很多的積累,如何開啟未來資料庫的市場,讓自己的產品服務到更多的使用者,充分利用好云為我們提供的基礎設施是最重要的。現在全球的幾個比較著名的新興資料庫廠商,比如Atlas(MongoDB)、SkySQL(MariaDB)、Redis企業雲等都提供了多雲部署架構,而今年比較火的Snowflake提供了完全的雲原生部署,其不像是MySQL那樣可以下載,而只能執行在雲上面,這是因為Snowflake認為雲原生就是未來的發展方向,所以沒有必要再走其它的彎路。總體結論就是資料庫是支援多雲部署最重要的戰略方向,無論是初創產品還是開源的成熟生態,雲一定是資料庫的未來。

資料庫大資料技術一體化

資料庫、資料倉庫和大資料這幾個概念往往交織在一起,如今的一個觀點是資料庫和大資料技術朝著一體化發展。Gartner在報告中已經將OLAP和OLTP以及大資料合併在一起了,這是因為他們在之前評估OLAP和OLTP以及大資料的魔力象限時會發現各個廠商都在拿同樣的產品出來,因此可以看出各個廠商的產品都在向融合化的方向發展。而對於使用者而言,也不想要了解清楚各個技術概念,其所關心的是業務價值。總而言之,資料庫和大資料技術正在朝著一體化的方向發展。

進一步來分析為什麼會這樣呢?2003年到2006年可以認為是大資料的誕生期,谷歌的三大論文發表對於業界產生了巨大的影響力,但是值得注意的一點是谷歌所提出的技術重點是解決分散式擴充套件問題,不一定應用在資料庫上面。2006年到2014年是大資料的探索期,一些NoSQL資料庫比如HBase、Cassandra的早期版本在這個時期出現。此外,SQL的介面模型也逐漸成熟,之前大家認為MapReduce比較通用,但是經過實戰之後發現SQL的介面更加友好。與此同時,也開始出現了一些開源的分散式檔案系統,如HDFS和Ceph等。2014年之後,技術發展趨勢變得有意思了,資料庫和大資料的技術開始融合,出現了像NewSQL這樣的分散式資料庫,比如Spanner、TiDB以及Cassandra後續版本等已經將分散式的BigTable理念與資料庫的理念結合在一起了,這是在BigTable路線上的變化。在程式設計模型部分,以前部分產品將SQL當做外接的介面增強,而如今的很多產品將SQL當做自身原生的能力,就像是資料庫一樣,將SQL當做自己的核心,還有部分產品將儲存過程當做自己的核心。而對於分散式檔案系統部分,可以發現,雲廠商在這部分做的非常好,無論是AWS的S3還是阿里雲的OSS與雲盤,他們天然就是分散式儲存。雖然分散式儲存的技術挑戰非常大,但是雲廠商把這些問題基本上解決了,所以很多企業開始基於雲廠商基礎設施的能力構建分散式的資料計算能力,這也導致了大資料技術、資料倉庫以及資料庫逐漸走向融合。以前大家認為資料倉庫擴充套件性不好,所以出現了大資料技術,但是今天分散式基礎設施的能力已經變得非常強了,所以無論是資料庫還是資料倉庫,其擴充套件性都變得越來越好,足以處理PB級別的資料。另外一面,大資料產品開始將SQL能力全部融合進來,甚至將事務ACID等特性整合進去,這使得大資料技術和資料庫技術兩個領域快速融合,因此未來所需要考慮的事情是如何朝著這個趨勢演進,提供更多更優秀的產品。

資料庫自動駕駛能力持續增強

我在最開始的時候對於自動駕駛也持懷疑態度,但是隨著這項技術越來越成熟並且逐漸被大家開始廣泛使用,對於自動駕駛的認識也有所改變。資料庫的自動駕駛和汽車的自動駕駛還是不太一樣的,資料庫做自動駕駛更容易一些。2016年時,阿里巴巴資料庫的自動駕駛平臺叫做CloudDBA,這個產品所需要解決的核心問題就是整個阿里巴巴集團的資料庫自動化運維的問題。當時阿里巴巴集團的資料庫例項非常多,大約有幾十萬個,面對如此之多的資料庫例項,僅依靠DBA人工運維很難保障。

總結

最後總結一下,如今我們正在迎接新的資料時代,因此需要做好準備。雖然今天我們的系統更多的跑在關係型資料庫和資料倉庫等,但是隨著物聯網、工業網際網路這些領域的爆發,如何去迎接新的資料時代是一個非常有意思的話題。其次,在新的資料時代,雲原生資料庫和資料倉庫將會全面普及。雲原生概念在2020年已經非常流行了,而且雲計算作為基礎設施已經得到了一致的認可,而云原生代表著雲計算裡面最為核心的技術。再次,資料庫將預設開啟自動駕駛,這一點在技術上而言已經不再有瓶頸存在,未來將會在各個領域進行突破。最後,各種國產資料庫百花齊放,並且應用到各行各業,很多核心繫統都開始切換到國產資料庫,如PolarDB、TiDB、達夢等等,國產資料庫必將全面崛起。

13
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 隨時隨地暢享5G