大資料怎麼入門學習好？

首頁>Club>小明愛王者2021-03-05 01:27

大資料怎麼入門學習好？

回覆列表

1 # 臺灣小城大事

一、首先要搞清楚一個概念，什麼是大資料。

專業的來講：大資料(big data,mega data)，或稱巨量資料，指的是需要新處理模式才能具有更強的決策力、洞察力和流程最佳化能力的海量、高增長率和多樣化的資訊資產。在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大資料時代》中大資料指不用隨機分析法(抽樣調查)這樣的捷徑，而採用所有資料進行分析處理。大資料的5V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值密度)、Veracity(真實性)。
二、學習大資料需要什麼語言基礎?

首先，學習大資料是需要有java，python和R語言的基礎。

1)Java學習到什麼樣的程度才可以學習大資料呢?java需要學會javaSE即可。javaweb，javaee對於大資料用不到。學會了javase就可以看懂hadoop框架。

2)python是最容易學習的，難易程度：python java Scala 。python不是比java更直觀好理解麼，因為會了Python 還是要學習java的，你學會了java，再來學習python會很簡單的，一週的時間就可以學會python。

3)R語言也可以學習，但是不推薦，因為java用的人最多，大資料的第一個框架Hadoop，底層全是Java寫的。就算學會了R還是看不懂handoop。
java在大資料中的作用是構成大資料的語言，大資料的第一個框架Hadoop，底層全是Java寫的，所以推薦首選學習java。再給你們舉例說明下它們的分工和作用，java注重業務，大資料注重資料，前端是臉(頁面顯示)，java是胳膊(業務)，大資料是直男大腦，人工智慧，深度學習是有情商的大腦。

2 # 博宇IT

大資料入門首先要學習javase,掌握了javase之後，最好再學學javaee,如果不學的話，影響也不是特別大。接下來要學的東西就比較多了，主要是兩塊，一種是離線計算，以hadoop為主，一種是實時計算，以spark為主，當然大資料不是一兩個技術的組合，而是一整套完整的生態系統，所以要學的東西還是很多的，大資料主要解決的是海量資料的儲存和計算問題，建議還是把java學好，因為很多大資料的軟體都是基於java編寫的，所以入門大資料的話，建議先從java入門學習比較好！
3 # 小許說程式設計

想要學好大資料的話建議你可以學習百戰程式設計師，我就是在百戰程式設計師學習的大資料，課程質量還是很好的，現在已經就業。能被北大列為課題研究的課程肯定是可以保證質量的。

選擇百戰程式設計師也是從各個方面考慮的：

1是百戰程式設計師的口碑好，有好口碑的培訓機構是非常注重學員對自己學校的看法的，可以認真負責。
2是師資力量，百戰程式設計師的授課老師都有8年以上的授課經驗，還都是業內大牛，還有督導老師監督，不會拉下課，全程有老師輔導。

3是實操專案：有最好的課程和最好的老師，還要有很多的實操和專案練手，每個階段大大小小的實操還要被評分，都是企業最新的專案結合，可以真正保證學習效果，更好的融入工作。

4 # 小鵬職場分享

學習大資料技術分這麼幾個階段
java基礎一定要學，因為大資料底層的程式語言就是java，還是在大資料一些應用功能也需要java開發。
2學一門資料庫 oracle或mysql ，我建議最好是mysql 因為後期大資料技術hive語法和mysql很像。
3 linux命令一定要熟練掌握，因為大資料是跑在linux作業系統的。
4 學習一下hdfs mapreduce 原理
學習這些就差不多了。
5 # 尚矽谷教育

大資料技術想要入門是比較難的，如果是零基礎的學員想要入門大資料的還是不太可能事情，最好是找一家靠譜的大資料培訓機構進行系統的學習大資料基礎，但是大資料的學習也不是誰都可以的，零基礎的最好是本科的學歷，因為大資料培訓學習需要的邏輯思維分析能力比較強，也涉及到一些大學的數學演算法，所以學歷要求會高些，如果是有Java基礎的哪就另當別論了，大資料技術的培訓學習，基本都是以Java為基礎鋪墊的的，有一些Java基礎的話，相對來說就容易一些了，如果是直接想學大資料開發的話，Linux基礎要有一些，然後就是大資料相關元件的學習和使用，以及他們之間各個有什麼作用，資料採集聚合傳輸處理，各個元件在什麼位置，有什麼作用等，
一般都是Hadoop+zookeeper+Hive+Flume+Kafka+HBase+Spark+Flink

大資料培訓內容：

1、基礎部分：JAVA語言和 LINUX系統。

2、大資料技術部分：HADOOP、HIVE、OOZIE、WEB、FLUME、PYTHON、HBASE、KAFKA、SCALA、SPARK、SPARK調優等，覆蓋前沿技術：Hadoop,Spark,Flink,實時資料處理、離線資料處理、機器學習。

2020大資料學習路線

6 # 加米穀大資料

當前大資料的知識體系還是比較龐大的，隨著大資料技術生態的逐漸成熟和完善，大資料領域也逐漸形成了更多的崗位細分，從事不同的崗位細分方向則需要學習不同的知識。
從事大資料開發崗位，通常需要學習三大塊內容，其一是程式開發技術，初學者可以從Java或者Python開始學起；其二是學習大資料平臺知識，初學者可以從Hadoop和Spark開始學起；其三是大資料開發實踐，這個過程需要掌握一定的行業知識。
入門大資料為什麼要從程式設計開始，大資料推薦學習哪門程式語言？
https://www.toutiao.com/i6802128369728094731/
7 # 加米穀大資料張衡

大資料學習，入門的話，要看自己本身的基礎，基礎好入門會更容易，而基礎不足，入門階段如果沒做好心裡準備，很多人就會從入門到放棄。

從零基礎學習來說，大資料入門通常從程式語言著手，大資料根據崗位的不同，涉及到不同程度的程式設計任務，我們從大資料生態圈來看，目前主要以Hadoop/MapReduce、Spark和Storm等為典型代表，而這些框架都是構建在JVM上，從這個角度來看，Java語言和大資料的關聯最為密切。
而Spark框架，除了Java之外，還提供了Python、Scala和R語言的相關介面。入門階段，建議從Java開始學起，Java SE部分著重掌握。

其次是大資料主流的框架學習，大致的學習可參考下圖：

8 # 保利威影片雲

　　大資料入或者說是學習大資料，首先我們要學習Java語言和Linux作業系統，這兩個是學習大資料的基礎，學習的順序不分前後。

　　如果你就一小白，沒有任何開發基礎，也沒有學過任何開發語言，那就必須先從基礎java開始學起(大資料支援很多開發語言，但企業用的最多的還是JAVA)，接下來學習資料結構、關係型資料庫、linux系統操作，夯實基礎之後，再進入大資料的學習。
　　Java基礎學習、資料型別掌握、演算法、程式結構、常用類、資料結構、關係型資料庫等等，其次就是Linux系統操作學習與熟悉。

　　掌握Linux作業系統的安裝、命令列操作、使用者管理、磁碟管理、檔案系統管理、軟體包管理、程序管理、系統監測和系統故障排除。

　　掌握Linux作業系統的網路配置、DNS、DHCP、HTTP、FTP、SMTP和POP3服務的配置與管理。

　　然後就是資料庫表設計、SQL語句、Linux常見命令等的學習。

　　然後這些都學會了就行了嗎?

　　當然不行，你還得先跟著一兩個專案從中學習一下，要知道書面上的東西和實操起來還是有些差距的。
9 # IT人劉俊明

大資料的入門學習有多條學習路線，可以根據自身的知識結構進行選擇，並不是所有的學習路線都是從學Linux作業系統開始，然後是Java、Hadoop、Spark等，學習大資料也可以從資料分析開始。對於職場人來說，學習資料分析的工具如何使用，遠比學習Hadoop更加實際。

大資料的核心是資料價值化，只要圍繞這個核心所做的一系列資料價值化的操作都是大資料的分內之事，所以大資料學習的出發點比學習內容本身更重要，如果在學習大資料的初期就能建立資料價值化概念，那麼對初學者來說是一個莫大的推動力，如何能快速建立資料價值化概念呢？答案就是從資料分析開始。
資料分析並沒有那麼複雜，即使是沒有多少計算機基礎的人也可以入門資料分析，並不是所有的資料分析都需要透過機器學習的方式來完成，有很多工具能夠方便的完成資料分析，而這些工具本身並不是特別複雜，比如Excel。Excel是一個功能強大的資料分析工具，在沒有大資料概念的年代，Excel就在做資料分析的事情，雖然在大資料時代資料分析更加多樣化，但是透過Excel能讓入門者快速發現“資料之美”，完全可以透過Excel開啟學習大資料的大門。

學習Excel可以從基本的函式開始學起，比如sum、count、Vlookup、sumif、countif、find等，這些函式的使用非常方便且功能強大，透過實驗很快就能建立起資料分析的概念。Excel基本上能解決不少普通職場人的資料分析場景，幾萬條的資料分析使用Excel是沒有壓力的。
下一步學習就涉及到資料庫的使用了，雖然目前大資料領域的非結構化資料佔據著大部分的比例，但是目前大量的資料分析還是基於結構化資料進行的，所以學習一個數據庫產品的使用就變得很有必要了，推薦學習一下Mysql資料庫。掌握資料庫之後，資料分析的數量就會有顯著的提高，幾百萬條資料都是毫無壓力的，相比於Excel來說，資料分析的量一下就得到了質的提高。

接著可以學習一下SPSS，SPSS是資料分析（統計）領域一個非常強大的工具，分析可以定製化，是一個比較常見的工具。在資料視覺化方面可以學習一下Echarts，這是一個開源產品，功能也非常強大，同樣可以進行定製化（程式化）。

學習資料分析一個比較麻煩的事情是資料從哪來？要想解決這個問題，就必須進行下個階段的學習了，那就是Python程式設計，可以透過Python編寫爬蟲來爬取網際網路上的海量資料，作為自己資料分析的基礎。其實學習資料分析到中後期是繞不過程式設計的，掌握一門程式語言是非常有必要的，而Python就是資料分析最常見的程式語言之一。
資料分析涵蓋的內容非常多，按照場景不同也有很多條分析路線，對於初學者來說可以採用遞進式學習方式，這樣會有更好的學習效果。

如果有大資料方面的問題，也可以諮詢我。

10 # 娟子手勢舞

其實簡單的來說，大資料就是透過分析和挖掘全量的非抽樣的資料輔助決策。

大資料可以實現的應用可以概括為兩個方向，一個是精準化定製，第二個是預測。比如像透過搜尋引擎搜尋同樣的內容，每個人的結果卻是大不相同的。再比如精準營銷、百度的推廣、淘寶的喜歡推薦，或者你到了一個地方，自動給你推薦周邊的消費設施等等。
隨著大資料在國內的發展，大資料相關人才出現了供不應求的狀況，大資料分析師更是被媒體稱為“未來發展前景良好的職業之一”。大資料分析師的薪酬比同等級職位高20%。而如何成為大資料時代的弄潮兒，掌握當下緊缺的軟體技能是關鍵，那麼，零基礎該怎樣學習大資料呢？

大資料作為當下呼聲特別高的IT技術，想學大資料的朋友已經從一個變成兩個，從兩個變成三個，但是計數單位，也是從個到百到千到萬，接下來還可能更高。大資料的學習容易嗎？門檻低，想學的都可以展開大資料的學習，那麼該怎麼入門呢？

零基礎學大資料好不好學

隨著大資料行業的快速發展，也隨之出現了一些問題，比如大資料人才的缺失就是目前急需解決的一個問題，那麼很多學大資料的人又出現了一些問題，大家普遍擔心的就是零基礎能不能學習大資料，會不會不好學？
零基礎的人可以去大資料培訓機構學習大資料開發嗎？答案是可以的去。大資料學習並不是高深莫測的，雖然對於零基礎學員來說不是那麼簡單，但是隻要你認真學習，加上有專業老師的指導和針對性的訓練，相信你也是可以完全掌握大資料的。

零基礎學大資料四步走

零基礎的同學學習大資料開發不能急於求成，要分階段分步驟來一步步完成，大概可以分為四步：

第一階段

瞭解大資料的基本概念

首先，學習一門課程的時候，要對這門課程有一個簡單的瞭解，比如說，要先學習這門課程的一些專業的術語，學習一些入門概念知道這門課程是做什麼的，主要的學習知識有哪些。因此學習大資料就必須知道什麼是大資料，一般大資料的運用領域是那些，避免自己在對大資料一無所知的情況下就開始盲目學習。
第二階段

大資料課程學習

對於零基礎的小夥伴們來說，開始入門可能並不是那麼容易，需要學習大量的理論知識，閱讀枯燥的教材。因此要透過自學來掌握一門計算機程式語言，還是很難的。大家都知道計算機程式語言有很多，比如：C++，Python，Java等等。

第三階段

專案實戰階段

實戰訓練可以幫助我們更好的理解所學的內容，同時對相關知識加強記憶。在以後的實際運用中，可以更快的上手，對於相關知識的使用方法也有了經驗。

世上無難事只怕有心人，無論你是有基礎也好還是沒基礎也好，只要你認真學習大資料就一定會學好。

第四階段

後續提高

大資料結合人工智慧可以達到真正的資料科學家。
機器學習：是一門多領域交叉學科，涉及機率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。它是人工智慧的核心，是使計算機具有智慧的根本途徑，其應用遍及人工智慧的各個領域，它主要使用歸納、綜合而不是演繹。機器學習的演算法基本比較固定了，學習起來相對容易。

深度學習：深度學習的概念源於人工神經網路的研究，最近幾年發展迅猛。深度學習應用的例項有AlphaGo、人臉識別、影象檢測等。是國內外稀缺人才，但是深度學習相對比較難，演算法更新也比較快，需要跟隨有經驗的老師學習。

最快的學習方法，就是參加大資料課程培訓，師從行業專家，畢竟老師有多年積累的經驗，自己少走彎路達到事半功倍的效果。
11 # 韓小立

在回答題主的問題之前看了一下其他樓主的回答，突然感覺要入門大資料要學習的內容好多好雜，對於一個普通人來說可能至少要話三四年的時間全身心投入才可能入門，不知題主是否也有同樣的疑問！難道學習大資料真的是從入門到放棄麼？其實我覺得不是。

首先在學習大資料之前應該瞭解什麼是大資料，大資料這個概念又是如何產生的呢？資料這個概念是在有計算機時便誕生了，而現在無非就是加了一個“大”，所謂大即在隨著網際網路越來越發達，網路傳輸效率從2G走到現在的5G,從原先的網際網路走向現在的物聯網時代，每個人每個物產生的資料爆炸式產生，傳統的資料庫(如：oracle、db2等)已無法滿足現有資料的儲存開銷與計算效率，故而產生了現在的大資料平臺(如：MPP架構的華為高斯DB和Hadoop生態)來滿足對不斷增長的資料儲存與計算，也就是說大資料就是海量資料儲存與計算，題主可以選擇一種架構的大資料平臺如針對性學習。
在瞭解了什麼是大資料後題主可以選擇一種架構的大資料平臺進行學習，比如現在最流行的hadoop平臺。

根據題主的問題可以瞭解到題主應該是想快速入門，那怎麼才能快速入門呢？我覺得這才是題主最關心的問題吧！

所謂欲速則不達，門其實就在眼前只是不知如何去敲。那該怎麼敲呢？首先得了解大資料平臺架構分哪些模組吧！(如hadoop平臺基礎模組分hdfs、yarn、mapreduce)，其次得了解每個模組得功能是什麼吧，(如：hdfs是分散式檔案儲存系統，是用來儲存資料的)，再就是得明白給個模組之間的聯絡以及各個模組得實現原理了。

到此為止題主應該算是入門了，如果題主覺得光了解概念及原理還不夠可自行搭建開源CDH平臺進行學習試煉。結合網上大神們分享的搭建與開發經驗找一個小小的案例進行練習，題主就算上道了，至於道上的車速如何，需要題主自己把控！

12 # 尚矽谷IT教育

大資料行業如今如此火爆，帶來的市場效應就是很多人開始透過學習的方式進入大資料行業，但是，對於零基礎的來說想要進入大資料行業發展怎麼入門學習大資料是一件需要著重考慮的事情。大資料是一門比較複雜的課程，學習是需要有一個好的學習計劃會更好。

目前的大資料相關的一些使用到的元件都是使用的Java做為底層語言開發的，所以，這裡也建議零基礎的學員可以從家基礎進行入門學習比較好，當然，有其它程式語言也是可以的。
現在一般的大資料培訓機構的大資料入門課程，都是從Java程式語言開始進行學習的，但是這裡大家一定要認清一個問題，Java程式語言並不是真正的大資料技術只是大資料課程需要掌握的一小部分基礎內容，如果，是選擇大資料培訓機構進行學習的，那麼，在選擇培訓機構時，大資料培訓的課程很大的一部分都是程式語言或者是沒有相關程式語言的話就要留意了，這是不是靠譜的大資料培訓課程就要打一個問號了。

對於零基礎的學員來說在學習大資料技術之前掌握一些Java程式設計基礎是必要的，所以，如果選擇的大資料培訓課程中沒有相關內容的學習就不要考慮了，還有就是相關程式設計內容太多幾乎是佔據了一半以上的大資料課程內容，這樣的大部分是以大資料培訓為虐頭進行的培訓。
所以，在我們選擇大資料學習是時候一定要了解清楚，大資料都說需要掌握哪些內容，應該怎麼入門學習的比較好。
13 # 傳智教育官方賬號

大資料相比較於Java、Python等程式語言來說，確實是入門比較難的，不過如果想自學也沒毛病，只要你瞭解大資料的學習路線圖，跟著學習路線圖來學習，不會走偏，那麼，想學習還是很容易的哦！
分享給大家一套大資料的學習路線圖
學習大資料，也需要一些程式語言要基礎，之後還要學習Hadoop、spark等技術棧，在加上一些專案實戰，就可以找工作嘍！
第一階段：零基礎資料倉庫管理
可掌握的核心能力

•掌握企業級ETL平臺的kettle

•掌握BI的視覺化平臺Superset

•掌握Kettle ETL處理設計思想

•掌握大資料企業開發中最常見的linux的操作

•掌握一款主流資料庫客戶端工具DataGrip

•掌握企業MySQL的調優方案

•掌握大資料分析中資料全量及增量同步解決方案

•掌握生產環境中資料分析程式的部署解決方案
第二階段：Java語言程式設計
可掌握的核心能力

•掌握Java程式基礎資料型別

•掌握開發中常用類如集合、IO流、常用類等操作
•掌握Java異常處理機制

•掌握反射、網路程式設計、多執行緒開發

•掌握Jsoup的網路爬蟲開發

•掌握JDBC操作

•掌握ETL資料處理和BI報表開發
第三階段：Hadoop技術棧
可掌握的核心能力

•掌握shell程式設計

•掌握ZooKeeper原理並應用

•掌握HDFS的使用和MapReduce程式設計

•理解MapReduce原理和調優

•掌握Yarn的原理和調優

•掌握Hive的使用和調優
第四階段：專案一（線上教育）
可掌握的核心能力

•掌握從需求、設計、研發、測試到落地上線的完整專案流程

•掌握大量教育行業的真實業務邏輯，涉及20多個主題，100多個指標

•掌握海量資料如何調優、使用拉鍊表、增量資料處理，以及Hive函式的具體應用等

•掌握基於CM的大資料環境部署和管理

•掌握資料倉庫的核心概念和應用

•掌握常用離線大資料技術：Oozie、Sqoop、Hive等

•掌握FineReport視覺化
第五階段：資料微服務介面開發
可掌握的核心能力

•掌握SpringBoot整合SpringMVC開發
•掌握SpringBoot整合MyBatis開發

•掌握Eureka搭建

•掌握Feign的使用
第六階段：實時生態圈
可掌握的核心能力

•掌握Redis原理及架構

•掌握Redis命令操作、及資料結構

•掌握Hbase原理及架構

•掌握HBase命令操作、MapReduce程式設計

•掌握Phoneix二級索引最佳化查詢

•掌握ELK開發掌握Kafka原理及架構

掌握KafkaStreams開發

掌握基於Flink進行實時和離線資料處理、分析
掌握基於Flink的多流並行處理技術

掌握千萬級高速實時採集技術
第七階段：專案二（證券、物聯網任選其一）
可掌握的核心能力

•掌握基於FTP、Flume + Kafka的實時資料採集開發

•掌握TB級海量規模下Flink實時處理開發，保證實時計算高容錯

•掌握三種不同時間維指標的儲存、計算方案（Druid、MySQL、HBase），例如：毫秒級\秒級\分時等時間維

•掌握基於Kylin的即席快速OLAP開發

•掌握基於Flink CEP的實時預警監控開發

•掌握基於Spring Boot的資料服務介面開發
第八階段：Spark技術棧
可掌握的核心能力

•掌握Scala語言基礎、資料結構

•掌握Scala語言高階語法特性

•掌握Spark的RDD、DAG、CheckPoint等設計思想

•掌握SparkSQL結構化資料處理，Spark On Hive整合

•掌握Spark Streaming整合Kafka完成實時資料處理

•掌握Spark Streaming偏移量管理及Checkpoint

•掌握Structured Streaming整合多資料來源完成實時資料處理
第九階段：專案三
可掌握的核心能力

•掌握Docker環境部署、管理操作
•掌握基於Oracle + MySQL異構資料來源資料處理技術

•掌握基於Oracle Golden Gate以及Canal的實時採集技術

•掌握Kudu + Spark的快速離線資料處理、分析技術

•掌握Kudu + Impala即席資料分析技術

•掌握基於ClickHouse高效能儲存、計算引擎技術

•掌握基於ELK的全文檢索技術

•掌握Kudu、Spark的調優能力

•掌握基於Spring Cloud的資料微服務介面開發技術

劇多

大資料怎麼入門學習好？

相關內容