-
1 # 冷葉
-
2 # 秦穎輝
第一階段Java語言基礎階段
第二階段Linux系統&Hadoop生態體系
第三階段分散式計算框架
第四階段大資料實戰專案
第五階段大資料分析
-
3 # 老白說IT
現行的主要有以下四個比較流行的框架。
Hadoop
Hadoop無疑是大資料領域的第一站,這個由Apache基金會開發的分散式基礎架構,具有廣闊的生態圈。Hadoop提出的Map和Reduce的計算模式簡潔而優雅,它實現了大量演算法和元件。但是,由於Hadoop的計算任務需要在叢集的多個節點上多次讀寫,因此在速度上會稍顯劣勢,但是Hadoop的吞吐量也同樣是其他框架所不能匹敵的。
Storm
Storm是Twitter開源的大資料框架,Hadoop的批處理模式不同,Storm採用的是流計算框架。但Storm與Hadoop相似之處是也提出了Spout和Bolt兩個計算角色。舉個通俗的例子來說明Storm和Hadoop的不同之處,Hadoop類似水桶,而Storm類似水龍頭,想要獲取水,Hadoop是一桶一桶的去扛回來,而Storm只需要開啟水龍頭就行了。Storm流計算框架使用的是記憶體,延遲上具有優勢,但是不會持久化資料。Storm對Java、Ruby、Python等語言都有很好的支援。
Spark
Spark大資料框架作為Hadoop的升級版是一種混合式的計算框架,Spark自帶實時流處理工具;Spark也可以與Hadoop整合代替MapReduce;甚至Spark還可以單獨拿出來藉助HDFS等分散式儲存系統部署叢集。Spark的運算速度與Storm相似,Spark的速度大約為Hadoop的一百倍,而Spark的成本要比Hadoop低。Spark的火爆主要在於提出了用統一的引擎支援批處理,流處理,互動式查詢和機器學習等常用場景。Spark雖然號稱是可以處理流,但是主要的思路是提供很小的batch,由於是記憶體處理,如果處理的足夠快就能達到低延時效果。本質上是基於記憶體的批處理。
Flink
Flink大資料框架也是一種混合式的計算框架,Fink與Spark相反的地方在於Fink重點在於處理流式資料,所有的操作Flink都是基於流來實現的。
-
4 # 塵世中一顆迷途小書童
主要還是把Java基礎搞紮實,Java強悍了,其他工具會用就行,大多原始碼都是Java寫的,要深入瞭解原始碼才有競爭力,
回覆列表
首先把java學好吧,後面就是Hadoop、Spark這些的,實時流目前比較流行的還是Storm、Flink這些