-
1 # 超全棧裙729240147
-
2 # Lake說科技
大資料,不僅僅是資料量大,同時在其他方面,也有一定的特點。
第一,大資料資料體量非常大,傳統的單機儲存系統,已經無法在儲存這麼大量的資料,此時需要用到分散式儲存技術。
第二,大資料的資料種類非常多,資料的格式也會變得複雜,比如資料種類有影片、文件、圖片、訊息記錄等等。
第三,大資料中潛藏著非常重要的價值,透過資料分析技術,對商業決策做出智慧化以及資料化的支援。
大資料最主要的功能,就是為公司上層提供商業化決策支援,讓公司能夠結合歷史資料,往正確的方向發展。大資料技術主要分為兩類:大資料計算和大資料儲存。
大資料計算主要分為離線計算和實時計算,具體使用要看業務場景對於資料產出時延的要求離線計算對於資料的產出會有一定的時延,具體時延可以是15分鐘、小時或者天級別的。離線任務一般會對資料進行全域性批計算,這一次執行完就執行完了,不會像實時計算那樣,除非你自己停止實時任務,否則實時程式會一直執行。
實時計算資料是不斷產生的,一般資料產出的延遲會很低,最多是秒級別的。比如我們的資料大屏、實時資料流的加工處理等,這些場景對於資料的產出的時延要求很低。
離線計算的話,一般對於資料的產出時延沒有那麼高的要求,只要資料最終產出即可,具體使用像現在很多公司離線業務報表。目前大多數公司離線計算引擎使用的是Hive或者Spark,實時計算引擎目前主要是Flink。
大資料儲存需要資料分散式儲存,單機不能夠在儲存這麼多巨量資料在傳統的關係型資料庫中,當一個表非常大時,會使用分庫分表技術,將表分散式的儲存在不同的機器上面。分庫分表技術可以使用開源工具TDDL。
在非關係型NoSQL資料庫中,一般最底層的檔案儲存系統可以選擇HDFS。HDFS檔案系統將檔案按照塊來進行儲存,一個塊的大小為128兆,同時每個塊會儲存三份,對資料進行容災儲存,即使其中一個塊壞了,可以選擇其他塊進行資料恢復。
分散式資料庫系統可以對資料表進行水平分割和垂直分割。比如HBase資料庫,水平分割使用的是Region,垂直分割則是使用的列族。
分散式資料儲存技術,需要不同機器一起協同工作,每臺機器儲存整體資料的一個子集。在未來大資料時代,肯定都會使用分散式資料儲存,分散式資料庫,會成為大資料系統的標配。
回覆列表
大資料就是你行動行為的軌跡,將來可能會塑造成為你的影子,影子最終服務於你,預測到你的衣食住行,使你做到所想而行,比如你想自殺,它可能把刀放到你面前。