回覆列表
-
1 # 自由程式設計
-
2 # 加米穀大資料
一般來說,主流業界大資料技術Hadoop和Spark都會用到,在學習的時候,兩個體系都會學習,先學習Hadoop,在學Spark。
Hadoop:
Apache開源組織的一個分散式基礎框架,提供了一個分散式檔案系統(HDFS)、分散式計算(MapReduce)及統一資源管理框架(YARN)的軟體架構。使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。
Spark:
專為大規模資料處理而設計的快速通用的計算引擎。用來構建大型的、低延遲的資料分析應用程式。可用它來完成各種各樣的運算,包括 SQL 查詢、文字處理、機器學習等。
相關:Spark能代替Hadoop嗎?
https://www.toutiao.com/i6540156962573648397/
其實這兩個工具之間一般並不存在取捨關係。
業界一般會結合試用這兩個工具。
hadoop基於叢集儲存和分析排程的工具包,大家常用的有hdfs,mapreduce,yarn,屬於平臺基礎設施,主要負責海量資料儲存和平行計算排程。
而spark是個大資料快速分析工具,一般實在hadoop基礎上執行(雖然也可獨立執行),透過hadoop的yarn排程,實現海量資料的流式處理。
另外,spark也包含一個機器學習的庫mllib,用來進行機器學習。