非常榮幸來交流這個問題,更準確的說是3個問題。這3個概念其實都是對Spark的擴充套件應用,或者說是高階應用。
最通俗的說就是把Spark作為Hive的計算引擎,取代了之前的mapReduce。
由於Spark本身比MapReduce要先進,速度要快百倍以上,所以此舉大大提高了Hive查詢的效能。
Spark的效率加上hive的易操作,入門要求低,使得大資料離線計算得到非常大的普及。
最通俗的來講,就是將SQL轉換成 RDD操作,然後提交到叢集上去執行
專業點講就是
1.先將結構化的資料儲存在DataFrame中
2.然後用SQL進行後續的資料操作
3. DataFrame類似於RDD,但更像是資料庫的表,即包含資料也包含資料的結構資訊(元資料)
Hive On Spark和SparkSQL非常類似
1. 都是把SQL翻譯成Spark程式
2.兩者都不負責計算,只是告訴spark如何去計算
3.sql結構基本相同,只是SQL引擎不同
4.Hive On Spark比SparkSQL出現稍晚
這個最通俗的來說,就是將spark程式執行在yarn上的技術。
預設情況下spark執行在自己的資源排程平臺上,也就是Standalone方式。
但yarn作為當前更通用的分散式資源排程平臺,顯然在叢集上更方便管理,也就更受青睞。
所以將spark執行在yarn上就成了很好的選擇。
Spark on YARN和前兩者是沒有什麼太大的聯絡和區別了,屬於不同方面的問題。
講到這裡詳細您已經對這三個概念有了清楚的瞭解了。
學習是人充實,祝大家出任CTO、迎娶白富美 !!!O(∩_∩)O
非常榮幸來交流這個問題,更準確的說是3個問題。這3個概念其實都是對Spark的擴充套件應用,或者說是高階應用。
hive on Spark最通俗的說就是把Spark作為Hive的計算引擎,取代了之前的mapReduce。
由於Spark本身比MapReduce要先進,速度要快百倍以上,所以此舉大大提高了Hive查詢的效能。
Spark的效率加上hive的易操作,入門要求低,使得大資料離線計算得到非常大的普及。
SparkSQL最通俗的來講,就是將SQL轉換成 RDD操作,然後提交到叢集上去執行
專業點講就是
1.先將結構化的資料儲存在DataFrame中
2.然後用SQL進行後續的資料操作
3. DataFrame類似於RDD,但更像是資料庫的表,即包含資料也包含資料的結構資訊(元資料)
Hive On Spark和SparkSQL非常類似
1. 都是把SQL翻譯成Spark程式
2.兩者都不負責計算,只是告訴spark如何去計算
3.sql結構基本相同,只是SQL引擎不同
4.Hive On Spark比SparkSQL出現稍晚
Spark on YARN這個最通俗的來說,就是將spark程式執行在yarn上的技術。
預設情況下spark執行在自己的資源排程平臺上,也就是Standalone方式。
但yarn作為當前更通用的分散式資源排程平臺,顯然在叢集上更方便管理,也就更受青睞。
所以將spark執行在yarn上就成了很好的選擇。
Spark on YARN和前兩者是沒有什麼太大的聯絡和區別了,屬於不同方面的問題。
講到這裡詳細您已經對這三個概念有了清楚的瞭解了。
學習是人充實,祝大家出任CTO、迎娶白富美 !!!O(∩_∩)O