回覆列表
  • 1 # 資料程式媛

    非常榮幸來交流這個問題,更準確的說是3個問題。這3個概念其實都是對Spark的擴充套件應用,或者說是高階應用。

    hive on Spark

    最通俗的說就是把Spark作為Hive的計算引擎,取代了之前的mapReduce。

    由於Spark本身比MapReduce要先進,速度要快百倍以上,所以此舉大大提高了Hive查詢的效能。

    Spark的效率加上hive的易操作,入門要求低,使得大資料離線計算得到非常大的普及。

    SparkSQL

    最通俗的來講,就是將SQL轉換成 RDD操作,然後提交到叢集上去執行

    專業點講就是

    1.先將結構化的資料儲存在DataFrame中

    2.然後用SQL進行後續的資料操作

    3. DataFrame類似於RDD,但更像是資料庫的表,即包含資料也包含資料的結構資訊(元資料)

    Hive On Spark和SparkSQL非常類似

    1. 都是把SQL翻譯成Spark程式

    2.兩者都不負責計算,只是告訴spark如何去計算

    3.sql結構基本相同,只是SQL引擎不同

    4.Hive On Spark比SparkSQL出現稍晚

    Spark on YARN

    這個最通俗的來說,就是將spark程式執行在yarn上的技術。

    預設情況下spark執行在自己的資源排程平臺上,也就是Standalone方式。

    但yarn作為當前更通用的分散式資源排程平臺,顯然在叢集上更方便管理,也就更受青睞。

    所以將spark執行在yarn上就成了很好的選擇。

    Spark on YARN和前兩者是沒有什麼太大的聯絡和區別了,屬於不同方面的問題。

    講到這裡詳細您已經對這三個概念有了清楚的瞭解了。

    學習是人充實,祝大家出任CTO、迎娶白富美 !!!O(∩_∩)O

  • 中秋節和大豐收的關聯?
  • 做個調查,有多少人覺得心理諮詢是聊聊天,沒用的?