首頁>科技>

這是一部系統、深度講解大資料技術棧的著作,從資料收集、資料儲存、資源管理與服務協調、計算引擎、資料分析5個層次講解了整個大資料技術體系中所有核心技術的原理、架構與實踐。不僅能讓讀者從巨集觀上全面認識整個大資料系統,而且能讓讀者從微觀上深入理解各種大資料技術的細節。

相比於現有的大資料基礎書籍,本篇具有三大特色:

①系統性:深度剖析大資料技術體系的六層架構;

②技術性:詳盡介紹Hadoop和Spark等主流大資料技術;

本篇嘗試以“資料生命週期”為線索,按照分層結構逐步介紹大資料技術體系,涉及資料收集、資料儲存、資源管理和服務協調、計算引擎及資料分析五層技術架構,由點及面,最終通過綜合案例將這些技術串接在一起。

本篇將以資料在大資料系統中的生命週期為線索,一共16章,分為6個部分:

第一部分(第1章):概述主要介紹企業級大資料技術框架、技術實現方案和架構,包括Google的 大資料技術棧和以Hadoop和Spark為代表的開源技術棧。

第二部分(第2-4章) :資料收集講解大資料收集相關技術,主要涉及關係型資料收集工具Sqoop與Canel,非關係型資料收集系統Flume以及分散式訊息佇列Kafka。

第三部分(第5-7章):資料儲存講解大資料儲存相關技術,涉及資料儲存格式、分散式檔案系統以及分散式資料庫三部分,包括Thrif. Protobuf、Avro, HDFS和HBase等。

第四部分( 1第1-9章) :分散式協調與資源管理講解資源管理和服務協調相關技術,涉及資源管理和排程系統Y ARN以及資源協調系統Zookeeper。

第五部分1 第10-1:3章): i計算引|擎講解計算引擎相關技術,涉及批處理、互動式處理以及流式實時處理三類引擎,包括MapReduce .Spark、Impala/Presto. Storm等常用技術。

第六部分1第11-16章) :資料分析講解資料分析相關技術,涉及基於資料分析的語言HQL與SQL,大資料統一程式設計模型及機器學習庫等。

讀者物件

(1 )大資料應用開發人員

本書用了相當大的篇幅介紹各個大資料系統的適用場景和使用方式,能夠很好地幫助大資料應用開發工程師設計出滿足要求的程式。

(2)大資料講師和學員

本書按照大資料五層架構,即資料收集- + 資料儲存- +資源管理與服務協調-→計算引擎-→資料分析,完整介紹了整個大資料技術體系,非常易於理解,此外,每節包含大量程式碼示例和思考題目,非常適合大資料教學。

(3)大資料運維工程師

對於一名合格的大資料運維工程師而言,適當地了解大資料系統的應用場景、設計原理和架構是十分有幫助的,這不僅有助於我們更快地排除各種可能的大資料系統故障,也能夠讓運維人員與研發人員更有效地進行溝通。本書可以有效地幫助運維工程師全面理解當下主流的大資料技術體系。

(4)開源軟體愛好者

開源大資料系統(比如Hadoop和Spark)是開源軟體中的佼佼者,它們在實現的過程中吸收了大量開源領域的優秀思想,同時也有很多值得學習的創新。通過閱讀本書,這部分讀者不僅能領略到開源軟體的優秀思想,還可以學習如何構建一套完整的技 術生態。

  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 4G還是5G對我們影響大嗎?華為Mate30與iPhone11給你答案