這個問題提問的很有深度,目前大資料是個比較廣義的概念,涉及的方方面面很大,若要給個很官方的說法是比較難,簡單說一下我知道的理解:
一是資料採集與預處理,也就是說你不管是任何的大資料分析,首先要有資料支撐,但是資料是很廣的,你需要的資料得按關鍵詞或者一定的分類把資料進行預處理,以便分析時提供呼叫。資料採集分很多很多種,可以是網路資源抓取、硬體採集、人工錄入、資料對接、購買第三方資源等等,技術很多種Flume NG、NDC、Logstash、Sqoop、Strom、Zookeeper等。
二是資料儲存,這是個很消耗硬體資源的本質問題,既然是大資料,說明是一個大型量化的過程,隨著你分析需求,資料會隨著時間的推移變得龐大,應用多技術方法有Hadoop、HBase、Phoenix、Yarm、Mesos、Redis、Atlas、Kudu等。
三是資料清洗,你的資料龐大會讓你的整體響應速度受到極大考驗,讀寫分離,負載均衡等等問題就需要你去想應對方案,應用到的查詢引擎工作流排程引擎技術有MapReduce、Oozie、Azkaban等。
五是資料視覺化,這也是資料分析的最終目的,如何去更好的呈現你的資料,使你的資料變得有價值是你做這個分析平臺的制高點,當下應用比較成熟的技術有BI Tableau、Qlikview、PowrerBI、SmallBI等。
這個問題提問的很有深度,目前大資料是個比較廣義的概念,涉及的方方面面很大,若要給個很官方的說法是比較難,簡單說一下我知道的理解:
一是資料採集與預處理,也就是說你不管是任何的大資料分析,首先要有資料支撐,但是資料是很廣的,你需要的資料得按關鍵詞或者一定的分類把資料進行預處理,以便分析時提供呼叫。資料採集分很多很多種,可以是網路資源抓取、硬體採集、人工錄入、資料對接、購買第三方資源等等,技術很多種Flume NG、NDC、Logstash、Sqoop、Strom、Zookeeper等。
二是資料儲存,這是個很消耗硬體資源的本質問題,既然是大資料,說明是一個大型量化的過程,隨著你分析需求,資料會隨著時間的推移變得龐大,應用多技術方法有Hadoop、HBase、Phoenix、Yarm、Mesos、Redis、Atlas、Kudu等。
三是資料清洗,你的資料龐大會讓你的整體響應速度受到極大考驗,讀寫分離,負載均衡等等問題就需要你去想應對方案,應用到的查詢引擎工作流排程引擎技術有MapReduce、Oozie、Azkaban等。
五是資料視覺化,這也是資料分析的最終目的,如何去更好的呈現你的資料,使你的資料變得有價值是你做這個分析平臺的制高點,當下應用比較成熟的技術有BI Tableau、Qlikview、PowrerBI、SmallBI等。