首頁>Club>
13
回覆列表
  • 1 # 冷葉

    首先把java學好吧,後面就是Hadoop、Spark這些的,實時流目前比較流行的還是Storm、Flink這些

  • 2 # 秦穎輝

    第一階段Java語言基礎階段

    第二階段Linux系統&Hadoop生態體系

    第三階段分散式計算框架

    第四階段大資料實戰專案

    第五階段大資料分析

  • 3 # 老白說IT

    現行的主要有以下四個比較流行的框架。

    Hadoop

    Hadoop無疑是大資料領域的第一站,這個由Apache基金會開發的分散式基礎架構,具有廣闊的生態圈。Hadoop提出的Map和Reduce的計算模式簡潔而優雅,它實現了大量演算法和元件。但是,由於Hadoop的計算任務需要在叢集的多個節點上多次讀寫,因此在速度上會稍顯劣勢,但是Hadoop的吞吐量也同樣是其他框架所不能匹敵的。

    Storm

    Storm是Twitter開源的大資料框架,Hadoop的批處理模式不同,Storm採用的是流計算框架。但Storm與Hadoop相似之處是也提出了Spout和Bolt兩個計算角色。舉個通俗的例子來說明Storm和Hadoop的不同之處,Hadoop類似水桶,而Storm類似水龍頭,想要獲取水,Hadoop是一桶一桶的去扛回來,而Storm只需要開啟水龍頭就行了。Storm流計算框架使用的是記憶體,延遲上具有優勢,但是不會持久化資料。Storm對Java、Ruby、Python等語言都有很好的支援。

    Spark

    Spark大資料框架作為Hadoop的升級版是一種混合式的計算框架,Spark自帶實時流處理工具;Spark也可以與Hadoop整合代替MapReduce;甚至Spark還可以單獨拿出來藉助HDFS等分散式儲存系統部署叢集。Spark的運算速度與Storm相似,Spark的速度大約為Hadoop的一百倍,而Spark的成本要比Hadoop低。Spark的火爆主要在於提出了用統一的引擎支援批處理,流處理,互動式查詢和機器學習等常用場景。Spark雖然號稱是可以處理流,但是主要的思路是提供很小的batch,由於是記憶體處理,如果處理的足夠快就能達到低延時效果。本質上是基於記憶體的批處理。

    Flink

    Flink大資料框架也是一種混合式的計算框架,Fink與Spark相反的地方在於Fink重點在於處理流式資料,所有的操作Flink都是基於流來實現的。

  • 4 # 塵世中一顆迷途小書童

    主要還是把Java基礎搞紮實,Java強悍了,其他工具會用就行,大多原始碼都是Java寫的,要深入瞭解原始碼才有競爭力,

  • 中秋節和大豐收的關聯?
  • 還從來沒考過教資,第一次買書,應該從何下手啊?