大資料開發、資料倉庫、資料安全、資料分析、資料探勘等都是圍繞大資料的商業價值應運而生。大資料開發主要分為大資料平臺開發(研發級)、大資料應用開發和大資料分析(統計學和機器學習),不同崗位需要面對不同的崗位職責,也需要具備不同的知識結構。
大資料開發做什麼?
負責公司資料平臺與數倉模型設計與開發;規範底層資料儲存,結構化查詢邏輯,方便快捷獲取資料;支援實時資料報表、離線資料報表、互動式資料分析等多種資料應用;對大資料相關的前沿技術進行預研。
大資料開發需要具備的基本技能:目前從事大資料應用開發的語言包括Java、Python、Scala、R等,需要熟悉Hadoop、HBbase、hive、spark、Flink、ES、Presto、Flume、Kafka生態的原理和使用方法,掌握資料開發、資料探勘的各項流程。
Java語言由於具備較為完善的生態,而且Hadoop平臺自身也是Java語言開發的,所以Java語言往往是比較常見的選擇。在學習Java語言的過程中,可以同步接觸Hadoop平臺,掌握Hadoop平臺的整體結構,並且透過Java完成Hadoop平臺的一些案例實驗,進而逐步掌握在Hadoop平臺下的Java應用開發。
大資料分析通常採用統計學分析方式和機器學習方式兩種,統計學方式採用Python和R語言是不錯的選擇,而機器學習往往更多采用Python語言來實現,同時需要學習一系列演算法的實現過程,包括Knn、決策樹、支援向量機、樸素貝葉斯等等。所以,從事大資料分析需要具備一定的數學功底。
大資料開發、資料倉庫、資料安全、資料分析、資料探勘等都是圍繞大資料的商業價值應運而生。大資料開發主要分為大資料平臺開發(研發級)、大資料應用開發和大資料分析(統計學和機器學習),不同崗位需要面對不同的崗位職責,也需要具備不同的知識結構。
大資料開發做什麼?
負責公司資料平臺與數倉模型設計與開發;規範底層資料儲存,結構化查詢邏輯,方便快捷獲取資料;支援實時資料報表、離線資料報表、互動式資料分析等多種資料應用;對大資料相關的前沿技術進行預研。
大資料開發需要具備的基本技能:目前從事大資料應用開發的語言包括Java、Python、Scala、R等,需要熟悉Hadoop、HBbase、hive、spark、Flink、ES、Presto、Flume、Kafka生態的原理和使用方法,掌握資料開發、資料探勘的各項流程。
Java語言由於具備較為完善的生態,而且Hadoop平臺自身也是Java語言開發的,所以Java語言往往是比較常見的選擇。在學習Java語言的過程中,可以同步接觸Hadoop平臺,掌握Hadoop平臺的整體結構,並且透過Java完成Hadoop平臺的一些案例實驗,進而逐步掌握在Hadoop平臺下的Java應用開發。
大資料分析通常採用統計學分析方式和機器學習方式兩種,統計學方式採用Python和R語言是不錯的選擇,而機器學習往往更多采用Python語言來實現,同時需要學習一系列演算法的實現過程,包括Knn、決策樹、支援向量機、樸素貝葉斯等等。所以,從事大資料分析需要具備一定的數學功底。