回覆列表
  • 1 # 超全棧裙729240147

    大資料就是你行動行為的軌跡,將來可能會塑造成為你的影子,影子最終服務於你,預測到你的衣食住行,使你做到所想而行,比如你想自殺,它可能把刀放到你面前。

  • 2 # Lake說科技

    大資料,不僅僅是資料量大,同時在其他方面,也有一定的特點。

    第一,大資料資料體量非常大,傳統的單機儲存系統,已經無法在儲存這麼大量的資料,此時需要用到分散式儲存技術。

    第二,大資料的資料種類非常多,資料的格式也會變得複雜,比如資料種類有影片、文件、圖片、訊息記錄等等。

    第三,大資料中潛藏著非常重要的價值,透過資料分析技術,對商業決策做出智慧化以及資料化的支援。

    大資料最主要的功能,就是為公司上層提供商業化決策支援,讓公司能夠結合歷史資料,往正確的方向發展。大資料技術主要分為兩類:大資料計算和大資料儲存。

    大資料計算主要分為離線計算和實時計算,具體使用要看業務場景對於資料產出時延的要求

    離線計算對於資料的產出會有一定的時延,具體時延可以是15分鐘、小時或者天級別的。離線任務一般會對資料進行全域性批計算,這一次執行完就執行完了,不會像實時計算那樣,除非你自己停止實時任務,否則實時程式會一直執行。

    實時計算資料是不斷產生的,一般資料產出的延遲會很低,最多是秒級別的。比如我們的資料大屏、實時資料流的加工處理等,這些場景對於資料的產出的時延要求很低。

    離線計算的話,一般對於資料的產出時延沒有那麼高的要求,只要資料最終產出即可,具體使用像現在很多公司離線業務報表。目前大多數公司離線計算引擎使用的是Hive或者Spark,實時計算引擎目前主要是Flink。

    大資料儲存需要資料分散式儲存,單機不能夠在儲存這麼多巨量資料

    在傳統的關係型資料庫中,當一個表非常大時,會使用分庫分表技術,將表分散式的儲存在不同的機器上面。分庫分表技術可以使用開源工具TDDL。

    在非關係型NoSQL資料庫中,一般最底層的檔案儲存系統可以選擇HDFS。HDFS檔案系統將檔案按照塊來進行儲存,一個塊的大小為128兆,同時每個塊會儲存三份,對資料進行容災儲存,即使其中一個塊壞了,可以選擇其他塊進行資料恢復。

    分散式資料庫系統可以對資料表進行水平分割和垂直分割。比如HBase資料庫,水平分割使用的是Region,垂直分割則是使用的列族。

    分散式資料儲存技術,需要不同機器一起協同工作,每臺機器儲存整體資料的一個子集。在未來大資料時代,肯定都會使用分散式資料儲存,分散式資料庫,會成為大資料系統的標配。

  • 中秋節和大豐收的關聯?
  • 什麼乎其什麼成語有哪些?