-
1 # 華信智原天津IT達人
-
2 # 整天朱村吹
大資料技術其實也有很多方向
1.etl方向,主要做資料轉換,清冼等,需要掌握的技術etl,如 kettle,informatica,sqoop,datax等等
2.大資料運維方向,需要掌握linux,hadoop,hive,hbase,es等元件的安裝運維調優
3.後臺開發方向,需要JAVA,PYTHON,熟悉各種大資料元件API
4.前端方向,資料視覺化方向,如tableau,quickview,biee,js,vue.js等等
-
3 # 加米穀大資料
大資料的技能要求
此處我們來說說入門學習需要掌握的基本技能:
2、Linux命令
3、HDFS
4、MapReduce
5、 Hadoop
6、Hive
7、ZooKeeper
8、HBase
9、Redis
10、Flume
11、SSM
12、Kafka
13、Scala
14、Spark
15、MongoDB
16、Python與資料分析
-
4 # 千鋒頭號粉絲
我們都知道現在學習大資料,Hadoop是其中一個必學的技術,簡單來說,Hadoop是在分散式伺服器叢集上儲存海量資料並執行分散式分析應用的一種方法。那Hadoop該學習哪些內容?需要了解什麼呢?有Hadoop經典學習資料嗎?
HDFS
HDFS(Hadoop Distributed File System,Hadoop分散式檔案系統),它是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的資料訪問,適合那些有著超大資料集(large data set)的應用程式。
MapReduce
通俗說MapReduce是一套從海量源資料提取分析元素末後返回結果集的程式設計模型,將檔案分散式儲存到硬碟是第一步,而從海量資料中提取分析我們需要的內容就是MapReduce做的事了。
MapReduce的基本原理就是:將大的資料分析分成小塊逐個分析,然後再將提取出來的資料彙總分析,從而獲得我們想要的內容。當然怎麼分塊分析,怎麼做Reduce操作非常複雜,Hadoop已經提供了資料分析的實現,我們只需要編寫簡單的需求命令即可達成我們想要的資料。
關於Hadoop的使用方式:
感覺現在各個公司使用Hadoop的方式都不一樣,主要我覺得有兩種吧。
第一種是long running cluster形式,比如Yahoo,不要小看這個好像已經沒什麼存在感的公司,Yahoo可是Hadoop的元老之一。這種就是建立一個Data Center,然後有幾個上千Node的Hadoop Cluster一直在執行。比較早期進入Big Data領域的公司一般都在使用或者使用過這種方式。
另一種是隻使用MapReduce型別。畢竟現在是Cloud時代,比如AWS的Elastic MapReduce。這種是把資料存在別的更便宜的地方,比如s3,自己的data center, sql database等等,需要分析資料的時候開啟一個Hadoop Cluster,Hive/Pig/Spark/Presto/Java分析完了就關掉。不用自己做Admin的工作,方便簡潔。
所以個人如果要學Hadoop的話我也建議第二種,AWS有免費試用時間(但是EMR並不免費,所以不要建了幾千個Node一個月後發現破產了),可以在這上面學習。更重要的是你可以嘗試各種不同的配置對於任務的影響,比如不同的版本,不同的container size,memory大小等等,這對於學習Spark非常有幫助。
總的來說Hadoop適合應用於大資料儲存和大資料分析的應用,適合於伺服器幾千臺到幾萬臺的叢集執行,支援PB級的儲存容量。Hadoop典型應用有:搜尋、日誌處理、推薦系統、資料分析、影片影象分析、資料儲存等。
大資料產業已進入發展的“快車道”,急需大量優秀的大資料人才作為後盾。能夠在大資料行業崛起的初期進入到這個行業當中來,才有機會成為時代的弄潮兒。千鋒大資料開發新進企業級伺服器實戰教學,20周帶你一站式搞定匪夷所思的大資料開發技術。
-
5 # felixow3n
首先得搭建一個完全分散式叢集,可以用vmware虛擬機器。入門的話,首先得了解hadoop生態,資料儲存hdfs,第一代計算框架mapreduce,資源排程yarn,分散式協調服務zookeeper,輔助工具Common,分散式資料庫hbase,資料倉庫hive這些必不可少。
然後就是第二代計算框架spark,這裡又包含了spark生態圈,資料探勘spark mlib,資料分析sparkR,資料查詢spark sql,實時計算spark straming。這些搞定之後,你就可以成為一個合格的大資料工程師了
-
6 # 海牛學院大資料培訓
學習大資料,如果你是零基礎的話要學習java和linux,然後才開始學習大資料技術
包括:(HADOOP-HIVE-OOZIE-WEB-SPARK-SCALA-KAFKA-HBASE-PYTHON-FLUME)
當然學習大資料最重要的是要有真實的大資料專案可以實訓!
回覆列表
分散式檔案系統HDFS、初高階MapReduce、ZooKeeper、HBase、Pig、Hive、Sqoop、Storm等