回覆列表
  • 1 # 自由程式設計

    其實這兩個工具之間一般並不存在取捨關係。

    業界一般會結合試用這兩個工具。

    hadoop基於叢集儲存和分析排程的工具包,大家常用的有hdfs,mapreduce,yarn,屬於平臺基礎設施,主要負責海量資料儲存和平行計算排程。

    而spark是個大資料快速分析工具,一般實在hadoop基礎上執行(雖然也可獨立執行),透過hadoop的yarn排程,實現海量資料的流式處理。

    另外,spark也包含一個機器學習的庫mllib,用來進行機器學習。

  • 2 # 加米穀大資料

    一般來說,主流業界大資料技術Hadoop和Spark都會用到,在學習的時候,兩個體系都會學習,先學習Hadoop,在學Spark。

    Hadoop:

    Apache開源組織的一個分散式基礎框架,提供了一個分散式檔案系統(HDFS)、分散式計算(MapReduce)及統一資源管理框架(YARN)的軟體架構。使用者可以在不瞭解分散式底層細節的情況下,開發分散式程式。

    Spark:

    專為大規模資料處理而設計的快速通用的計算引擎。用來構建大型的、低延遲的資料分析應用程式。可用它來完成各種各樣的運算,包括 SQL 查詢、文字處理、機器學習等。

    相關:Spark能代替Hadoop嗎?

    https://www.toutiao.com/i6540156962573648397/

  • 中秋節和大豐收的關聯?
  • 如果有機會讓你重新上一遍學,你願意嗎?或者你願意終身學習嗎?