1)過去整個業界對大資料的分析的技術棧的Pipeline一般分為以下兩種方式:a)Data Source -> HDFS -> MR/Hive/Spark(相當於ETL)-> HDFS Parquet -> Spark SQL/Impala -> ResultService(可以放在DB中,也有可能被透過JDBC/ODBC來作為資料服務使用);b)Data Source -> Real timeupdate data to HBase/DB -> Export to Parquet -> Spark SQL/Impala -> ResultService(可以放在DB中,也有可能被透過JDBC/ODBC來作為資料服務使用);上述的第二種方式完全可以透過Kafka+Spark Streaming+Spark SQL(內部也強烈建議採用Parquet的方式來儲存資料)的方式取代2)期待的方式:DataSource -> Kafka -> Spark Streaming -> Parq
1)過去整個業界對大資料的分析的技術棧的Pipeline一般分為以下兩種方式:a)Data Source -> HDFS -> MR/Hive/Spark(相當於ETL)-> HDFS Parquet -> Spark SQL/Impala -> ResultService(可以放在DB中,也有可能被透過JDBC/ODBC來作為資料服務使用);b)Data Source -> Real timeupdate data to HBase/DB -> Export to Parquet -> Spark SQL/Impala -> ResultService(可以放在DB中,也有可能被透過JDBC/ODBC來作為資料服務使用);上述的第二種方式完全可以透過Kafka+Spark Streaming+Spark SQL(內部也強烈建議採用Parquet的方式來儲存資料)的方式取代2)期待的方式:DataSource -> Kafka -> Spark Streaming -> Parq