回覆列表
-
1 # ddolr4652
-
2 # 程式技術員spark core
實現了spark的基本功能、包括任務排程、記憶體管理、錯誤恢復與儲存系統互動等模組。spark core中還包含了對彈性分散式資料集的定義
spark sqlspark用來操作結構化資料的程式,透過SPARK SQL,我們可以使用SQL或者HIVE(HQL)來查詢資料,支援多種資料來源,比如HIVE表就是JSON等,除了提供SQL查詢介面,還支援將SQL和傳統的RDD結合,開發者可以在一個應用中同時使用SQL和程式設計的方式(API)進行資料的查詢分析。
Spark Streaming是Spark提供的對實時資料進行流式計算的元件,比如網頁伺服器日誌,或者是訊息佇列都是資料流。
MLLibSpark中提供常見的機器學習功能的程式庫,包括很多機器學習演算法,比如分類、迴歸、聚類、協同過濾等。
GraphX用於圖計算的比如社交網路的朋友關係圖。
Spark是基於記憶體,是雲計算領域的繼Hadoop之後的下一代的最熱門的通用的平行計算框架開源專案,尤其出色的支援InteractiveQuery、流計算、圖計算等。Spark在機器學習方面有著無與倫比的優勢,特別適合需要多次迭代計算的演算法