spark parquet只能用於spark sql麼？

首頁>Club>2021-05-02 09:42

回覆列表

1 # CoreCode

1）過去整個業界對大資料的分析的技術棧的Pipeline一般分為以下兩種方式：a）Data Source -> HDFS -> MR/Hive/Spark（相當於ETL）-> HDFS Parquet -> Spark SQL/Impala -> ResultService（可以放在DB中，也有可能被透過JDBC/ODBC來作為資料服務使用）；b）Data Source -> Real timeupdate data to HBase/DB -> Export to Parquet -> Spark SQL/Impala -> ResultService（可以放在DB中，也有可能被透過JDBC/ODBC來作為資料服務使用）；上述的第二種方式完全可以透過Kafka+Spark Streaming+Spark SQL（內部也強烈建議採用Parquet的方式來儲存資料）的方式取代2）期待的方式：DataSource -> Kafka -> Spark Streaming -> Parq