大資料學習路線及各階段學習書籍推薦!廢話不多說,直接切入主題,有需要的小夥伴可以參考學習!
階段一、大資料基礎——java語言基礎方面
(1)Java語言基礎
Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字串、Java陣列與類和物件、數字處理類與核心技術、I/O與反射、多執行緒、Swing程式與集合類
(2) HTML、CSS與JavaScript
PC端網站佈局、HTML5+CSS3基礎、WebApp頁面佈局、原生JavaScript互動功能開發、Ajax非同步互動、jQuery應用
(3)JavaWeb和資料庫
資料庫、JavaWeb開發核心、JavaWeb開發內幕
推薦書籍:
《Effective Java中文版》(第2版)
本書為我們帶來了共78條程式設計師必備的經驗法則,針對你每天都會遇到的程式設計問題提出了有效、實用的解決方案。
書中的每一章都包含幾個“條目”,以簡潔的形式呈現,自成獨立的短文,它們提出了具體的建議,對於Java平臺精妙之處的獨到見解,以及優秀的程式碼範例。每個條目的綜合描述和解釋都闡明瞭應該怎麼做,不應該怎麼做,以及為什麼。
階段二、 Linux&Hadoop生態體系
Linux體系、Hadoop離線計算大綱、分散式資料庫Hbase、資料倉庫Hive、資料遷移工具Sqoop、Flume分散式日誌框架
1、《Big Data》
在大資料的背景下,我很少看到關於資料建模,資料層,資料處理需求分析以及資料架構和儲存實現問題。這本書卻提供了令人耳目一新的全面解決方案。
2、《Hadoop權威指南》
《Hadoop權威指南(中文版)》從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高效能處理海量資料集的理想工具。
3、《Hive程式設計指南》
《Hive程式設計指南》是一本Apache Hive的程式設計指南,旨在介紹如何使用Hive的SQL方法HiveQL來彙總、查詢和分析儲存在Hadoop分散式檔案系統上的大資料集合。
階段三、 分散式計算。
(1)分散式計算框架
Python程式語言、Scala程式語言、Spark大資料處理、Spark—Streaming大資料處理、Spark—Mlib機器學習、Spark—GraphX 圖計算、實戰一:基於Spark的推薦系統(某一線公司真實專案)、實戰二:新浪網(www.sina.com.cn)
(2)storm技術架構體系
Storm原理與基礎、訊息佇列kafka、Redis工具、zookeeper詳解、實戰一:日誌告警系統專案、實戰二:猜你喜歡推薦系統實戰
1、《Learning Spark》
《Spark 快速大資料分析》是一本為Spark 初學者準備的書,它沒有過多深入實現細節,而是更多關注上層使用者的具體用法。不過,本書絕不僅僅限於Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
2、《Spark機器學習:核心技術與實踐》
本書採用理論與大量例項相結合的方式幫助開發人員掌握使用Spark進行分析和實現機器學習演算法。透過這些示例和Spark在各種企業級系統中的應用,幫助讀者解鎖Spark機器學習演算法的複雜性,透過資料分析產生有價值的資料洞察力。
階段四、 大資料專案實戰(一線公司真實專案)
資料獲取、資料處理、資料分析、資料展現、資料應用
階段五、 大資料分析 —AI(人工智慧)
主要是講解Data Analyze資料分析基礎、資料視覺化、sklearn中三類樸素貝葉斯演算法以及python機器學習等提升個人能力的內容!
大資料學習路線及各階段學習書籍推薦!廢話不多說,直接切入主題,有需要的小夥伴可以參考學習!
階段一、大資料基礎——java語言基礎方面
(1)Java語言基礎
Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字串、Java陣列與類和物件、數字處理類與核心技術、I/O與反射、多執行緒、Swing程式與集合類
(2) HTML、CSS與JavaScript
PC端網站佈局、HTML5+CSS3基礎、WebApp頁面佈局、原生JavaScript互動功能開發、Ajax非同步互動、jQuery應用
(3)JavaWeb和資料庫
資料庫、JavaWeb開發核心、JavaWeb開發內幕
推薦書籍:
《Effective Java中文版》(第2版)
本書為我們帶來了共78條程式設計師必備的經驗法則,針對你每天都會遇到的程式設計問題提出了有效、實用的解決方案。
書中的每一章都包含幾個“條目”,以簡潔的形式呈現,自成獨立的短文,它們提出了具體的建議,對於Java平臺精妙之處的獨到見解,以及優秀的程式碼範例。每個條目的綜合描述和解釋都闡明瞭應該怎麼做,不應該怎麼做,以及為什麼。
階段二、 Linux&Hadoop生態體系
Linux體系、Hadoop離線計算大綱、分散式資料庫Hbase、資料倉庫Hive、資料遷移工具Sqoop、Flume分散式日誌框架
推薦書籍:
1、《Big Data》
在大資料的背景下,我很少看到關於資料建模,資料層,資料處理需求分析以及資料架構和儲存實現問題。這本書卻提供了令人耳目一新的全面解決方案。
2、《Hadoop權威指南》
《Hadoop權威指南(中文版)》從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高效能處理海量資料集的理想工具。
3、《Hive程式設計指南》
《Hive程式設計指南》是一本Apache Hive的程式設計指南,旨在介紹如何使用Hive的SQL方法HiveQL來彙總、查詢和分析儲存在Hadoop分散式檔案系統上的大資料集合。
階段三、 分散式計算。
(1)分散式計算框架
Python程式語言、Scala程式語言、Spark大資料處理、Spark—Streaming大資料處理、Spark—Mlib機器學習、Spark—GraphX 圖計算、實戰一:基於Spark的推薦系統(某一線公司真實專案)、實戰二:新浪網(www.sina.com.cn)
(2)storm技術架構體系
Storm原理與基礎、訊息佇列kafka、Redis工具、zookeeper詳解、實戰一:日誌告警系統專案、實戰二:猜你喜歡推薦系統實戰
推薦書籍:
1、《Learning Spark》
《Spark 快速大資料分析》是一本為Spark 初學者準備的書,它沒有過多深入實現細節,而是更多關注上層使用者的具體用法。不過,本書絕不僅僅限於Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
2、《Spark機器學習:核心技術與實踐》
本書採用理論與大量例項相結合的方式幫助開發人員掌握使用Spark進行分析和實現機器學習演算法。透過這些示例和Spark在各種企業級系統中的應用,幫助讀者解鎖Spark機器學習演算法的複雜性,透過資料分析產生有價值的資料洞察力。
階段四、 大資料專案實戰(一線公司真實專案)
資料獲取、資料處理、資料分析、資料展現、資料應用
階段五、 大資料分析 —AI(人工智慧)
主要是講解Data Analyze資料分析基礎、資料視覺化、sklearn中三類樸素貝葉斯演算法以及python機器學習等提升個人能力的內容!