想自學大資料，不知道從哪裡學起，有什麼書籍和學習路線推薦麼？

首頁>Club>啊哈哈哈2021-01-03 08:36

想自學大資料，不知道從哪裡學起，有什麼書籍和學習路線推薦麼？

回覆列表

1 # 雅正教育李老師

隨著網際網路技術的發展，大資料行業前景非常被看好，有很多朋友對大資料行業心嚮往之，卻苦於不知道該如何下手，或者說學習大資料不知道應該看些什麼書。作為一個零基礎大資料入門學習者該看哪些書?今天就給大家分享幾本那些不容錯過的大資料書籍。

1、《資料探勘》

這是一本關於資料探勘領域的綜合概述，本書前版曾被KDnuggets的讀者評選為最受歡迎的資料探勘專著，是一本可讀性極佳的教材。它從資料庫角度全面系統地介紹資料探勘的概念、方法和技術以及技術研究進展，並重點關注近年來該領域重要和最新的課題——資料倉庫和資料立方體技術，流資料探勘，社會化網路挖掘，空間、多媒體和其他複雜資料探勘。
2、《Big Data》

這是一本在大資料的背景下，描述關於資料建模，資料層，資料處理需求分析以及資料架構和儲存實現問題的書。這本書提供了令人耳目一新的全面解決方案。但不可忽略的是，它也引入了大多數開發者並不熟悉的、困擾傳統架構的複雜性問題。本書將教你充分利用叢集硬體優勢的Lambda架構，以及專門用來捕獲和分析網路規模資料的新工具，來建立這些系統。

3、《Mining of Massive Datasets》

這是一本書是關於資料探勘的。但是本書主要關注極大規模資料的挖掘，也就是說這些資料大到無法在記憶體中存放。由於重點強調資料的規模，所以本書的例子大都來自Web本身或者Web上匯出的資料。另外，本書從演算法的角度來看待資料探勘，即資料探勘是將演算法應用於資料，而不是使用資料來“訓練”某種型別的機器學習引擎。

2 # 丁老師的程式設計課

大資料學習可以從最基礎的java語言入手，然後去學習Linux&Hadoop生態體系，一些分散式的技術理念，再然後就是學習機器學習，深度學習演算法。

階段一、大資料基礎——java語言基礎方面

（1）Java語言基礎

Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字串、Java陣列與類和物件、數字處理類與核心技術、I/O與反射、多執行緒、Swing程式與集合類
（2）JavaWeb和資料庫

資料庫、JavaWeb開發核心、JavaWeb開發內幕

推薦書籍：

《Effective Java中文版》（第2版）

這本書是學習java必備書籍，看完這本書也就掌握了入門的基礎知識。

階段二、 Linux&Hadoop生態體系

學習大資料離不開hadoop，圍繞hadoop有一套生態體系，分散式資料庫Hbase、資料倉庫Hive、資料遷移工具Sqoop、Flume分散式日誌框架需要了解並掌握。

推薦書籍：

1、《Big Data》

2、《Hadoop權威指南》

3、《Hive程式設計指南》
階段三、分散式計算。

（1）分散式計算框架

Python程式語言、Scala程式語言、Spark大資料處理、Spark—Streaming大資料處理、Spark—Mlib機器學習、Spark—GraphX 圖計算等

（2）storm技術架構體系

Storm原理與基礎、訊息佇列kafka、Redis工具、zookeeper叢集

推薦書籍：

1、《Learning Spark》

2、《Spark機器學習：核心技術與實踐》

階段四、機器學習和深度學習演算法的學習，可以更好的利用大資料去處理問題。
3 # IT人劉俊明

作為一名IT從業者，同時也是一名教育工作者，我來回答一下這個問題。

首先，要自學大資料還是具有一定難度的，大資料不僅內容比較多，難度比較高，同時還需要學習者具有一定的場景支撐，比如資料中心等等，所以初學者自學大資料通常需要按照三個階段來安排學習計劃。

學習大資料的第一個階段要根據自身的知識基礎和發展方向來完成一些基礎知識的學習，不論是從事大資料開發還是大資料分析，都需要具有一定的程式設計基礎，初學者從Java和Python開始學起都是不錯的選擇。Java的前期學習難度要大一些，Python則要相對簡單一些，而且目前Python語言在大資料領域的應用前景也比較廣闊。
學習大資料的第二個階段是掌握大資料平臺的相關知識，大資料領域的諸多崗位任務都離不開大資料平臺的支撐，所以學習大資料平臺是學習大資料技術的重要環節。學習大資料平臺可以從Hadoop和Spark開始學起，一方面這兩個平臺是開源平臺，另一方面這兩個平臺的應用範圍也比較廣泛，相關的學習案例也比較多。

相對於程式語言來說，大資料平臺的內容相對比較多，而且也具有一定的難度，往往還需要初學者具備一定的Linux作業系統知識，所以如果自身的計算機基礎知識比較薄弱，那麼也可以從Linux作業系統開始學起。

學習大資料的第三個階段就是實踐階段，實踐階段最好能夠在實習崗位上來完成，一方面實習崗位能夠提供場景支撐，另一方面在實習崗位上也更容易與有經驗的技術人員進行交流學習。

4 # 加米穀大資料

大資料可以自學，有Java開發經驗的童鞋可以挑戰一下。大資料主要學習三個平臺Hadoop、Spark、Storm。不過因為大資料技術體系龐大複雜，不同的就業方向使用的技術差異也比較大，加之作為比較新的技術網上的學習資源很少，自學難度大，零基礎建議報班培訓學習。

推薦書籍：

《Effective Java中文版》
《Big Data》

《Hadoop權威指南》

《Hive程式設計指南》

《Learning Spark》

《Spark機器學習：核心技術與實踐》

自學大資料可以學習哪些內容？有哪些書籍推薦？

https://www.toutiao.com/i6724194937652380171/
5 # 大資料之眸

拿自身舉例，筆者之前是Python資料分析出生，程式設計能力一般，因此在這個基礎上先學習linux基本操作命令，安裝ubuntu雙系統並進一步安裝Hadoop和Spark元件，在此基礎上利用Pyspark操作Spark大資料框架進行學習。可以推薦如下書籍：

《Pyspark實戰指南》

而要完全進入大資料領域還不夠，因為大資料框架比較側重開發，所以需要有scala語言功底（scala語言是Spark的原生語言），而scala語言跟JAVA關聯性很強且完全相容，所以如果有一定JAVA基礎的話完全可以從scala入手，推薦的書籍如下：
《Spark程式設計基礎（scala版）》

影片教程強烈推薦林子雨老師在MOOC慕課上的國家精品免費課程，由淺入深，非常容易上手。

劇多

想自學大資料，不知道從哪裡學起，有什麼書籍和學習路線推薦麼？

相關內容