在hadoop和spark之間如何取捨？

首頁>Club>2021-01-24 05:22

在hadoop和spark之間如何取捨？

13

回覆列表

1 # 自由程式設計

其實這兩個工具之間一般並不存在取捨關係。
業界一般會結合試用這兩個工具。
hadoop基於叢集儲存和分析排程的工具包，大家常用的有hdfs,mapreduce,yarn，屬於平臺基礎設施，主要負責海量資料儲存和平行計算排程。
而spark是個大資料快速分析工具，一般實在hadoop基礎上執行（雖然也可獨立執行），透過hadoop的yarn排程，實現海量資料的流式處理。
另外，spark也包含一個機器學習的庫mllib，用來進行機器學習。

2 # 加米穀大資料

一般來說，主流業界大資料技術Hadoop和Spark都會用到，在學習的時候，兩個體系都會學習，先學習Hadoop，在學Spark。

Hadoop：

Apache開源組織的一個分散式基礎框架，提供了一個分散式檔案系統(HDFS)、分散式計算（MapReduce）及統一資源管理框架（YARN）的軟體架構。使用者可以在不瞭解分散式底層細節的情況下，開發分散式程式。
Spark：

專為大規模資料處理而設計的快速通用的計算引擎。用來構建大型的、低延遲的資料分析應用程式。可用它來完成各種各樣的運算，包括 SQL 查詢、文字處理、機器學習等。

相關：Spark能代替Hadoop嗎？

https://www.toutiao.com/i6540156962573648397/

∧ 中秋節和大豐收的關聯？

∨ 如果有機會讓你重新上一遍學，你願意嗎？或者你願意終身學習嗎？

熱門排行