回覆列表
-
1 # 你永遠追不上的巨人
-
2 # 程式技術員
Hadoop和Spark的區別解決問題的出發點不一樣,Hadoop用普通硬體解決儲存和計算問題。 Spark用於構建大型的、低延遲的資料分析應用程式,不實現儲存。
Spark是在借鑑了MapReduce之上發展而來的,繼承了其分散式平行計算的優點並改進了MapReduce明顯的缺陷。Spark中間資料放到記憶體中,迭代運算效率高。
Spark引進了彈性分散式資料集的抽象,資料物件既可以放在記憶體,也可以放在磁碟,容錯性高,可用自動重建,RDD計算時可以透過CheckPoint來實現容錯。
Hadoop只提供了Map和Reduce操作。而Spark更加通用,提供的資料集操作型別有很多種,主要分為: Transformations和Actions兩大類。
Hadoop是大資料生態系統,是集成了檔案儲存,檔案抽取,批次計算,資源管理等等,而spark設計初衷是實時平行計算,而目前spark可以作為計算引擎嵌入hive,同時解決了批次與實時計算的問題。