大資料需要學習什麼框架，什麼生態圈？

首頁>Club>使用者1171834106472021-01-11 15:59

大資料需要學習什麼框架，什麼生態圈？

回覆列表

1 # 冷葉

首先把java學好吧，後面就是Hadoop、Spark這些的，實時流目前比較流行的還是Storm、Flink這些

2 # 秦穎輝

第一階段Java語言基礎階段
第二階段Linux系統&Hadoop生態體系
第三階段分散式計算框架
第四階段大資料實戰專案
第五階段大資料分析
3 # 老白說IT

現行的主要有以下四個比較流行的框架。

Hadoop

Hadoop無疑是大資料領域的第一站，這個由Apache基金會開發的分散式基礎架構，具有廣闊的生態圈。Hadoop提出的Map和Reduce的計算模式簡潔而優雅，它實現了大量演算法和元件。但是，由於Hadoop的計算任務需要在叢集的多個節點上多次讀寫，因此在速度上會稍顯劣勢，但是Hadoop的吞吐量也同樣是其他框架所不能匹敵的。
Storm

Storm是Twitter開源的大資料框架，Hadoop的批處理模式不同，Storm採用的是流計算框架。但Storm與Hadoop相似之處是也提出了Spout和Bolt兩個計算角色。舉個通俗的例子來說明Storm和Hadoop的不同之處，Hadoop類似水桶，而Storm類似水龍頭，想要獲取水，Hadoop是一桶一桶的去扛回來，而Storm只需要開啟水龍頭就行了。Storm流計算框架使用的是記憶體，延遲上具有優勢，但是不會持久化資料。Storm對Java、Ruby、Python等語言都有很好的支援。

Spark

Spark大資料框架作為Hadoop的升級版是一種混合式的計算框架，Spark自帶實時流處理工具；Spark也可以與Hadoop整合代替MapReduce；甚至Spark還可以單獨拿出來藉助HDFS等分散式儲存系統部署叢集。Spark的運算速度與Storm相似，Spark的速度大約為Hadoop的一百倍，而Spark的成本要比Hadoop低。Spark的火爆主要在於提出了用統一的引擎支援批處理，流處理，互動式查詢和機器學習等常用場景。Spark雖然號稱是可以處理流，但是主要的思路是提供很小的batch，由於是記憶體處理，如果處理的足夠快就能達到低延時效果。本質上是基於記憶體的批處理。
Flink

Flink大資料框架也是一種混合式的計算框架，Fink與Spark相反的地方在於Fink重點在於處理流式資料，所有的操作Flink都是基於流來實現的。

4 # 塵世中一顆迷途小書童

主要還是把Java基礎搞紮實，Java強悍了，其他工具會用就行，大多原始碼都是Java寫的，要深入瞭解原始碼才有競爭力，

∧ 中秋節和大豐收的關聯？

∨ 還從來沒考過教資，第一次買書，應該從何下手啊？

熱門排行

劇多

大資料需要學習什麼框架，什麼生態圈？