首頁>科技>

大資料工程師,作為大資料現階段發展的主要支撐人才,無疑是受到重視的,這一點表現在企業給出的薪酬待遇上,企業為了專業的人才,願意付出極高的成本。那麼想要成為企業需求的大資料工程師,需要做到哪些呢?

大資料裡面的角色

1、大資料工程

大資料工程需要解決資料的定義、收集、計算與儲存的工作,因此大資料工程師們在設計和部署這樣的系統時首要考慮的是資料高可用的問題;

2、大資料分析

大資料分析角色定位於如何利用資料——即從大資料工程系統中接收到資料之後如何為企業或組織提供有產出的資料分析,並且確實能夠幫助到公司進行業務改善或提升服務水平,首要解決的問題是發現並利用資料的價值。

這兩類角色相互依存但又獨立運作,大資料工程角色需要考慮資料的收集、計算(或是處理)和儲存;大資料分析角色則是執行資料的高階計算。

大資料的整個資料處理流程,從最初的資料採集、資料探勘到中期的資料清洗、資料處理,到後續的大資料應用,其中涉及到的工作量是非常大的。

這也是為什麼大資料工程師在不同的公司有不同的職位要求,並且按照各自內容的不同,給予不同的頭銜。大資料工程師職位要求,根據各自的工作內容方向不同,是有著一定的差別的。

對於大資料工程,對應的工作崗位是大資料工程師,大資料工程師要掌握這些技能:

linux基礎

因為大資料體系,基本都是開源軟體,這些開源軟體都是在開源的linux系統上執行的

一門JVM系語言

當前大資料生態JVM系語言類的比重極大,推薦大家學習Java或Scala

計算處理框架

嚴格來說,這分為離線批處理和流式處理。流式處理是未來的趨勢,建議大家一定要去學習。如果要學習大資料工程,掌握一門實時流式處理框架是必須的。當下主流的框架包括:Apache Samza, Apache Storm, Apache Spark Streaming以及最近一年風頭正勁的Apache Flink。當然Apache Kafka也推出了它自己的流式處理框架:Kafka Streams。建議學習Flink、Spark Streaming或Kafka Streams中的一個

分散式儲存框架

Hadoop的MapReduce、HDFS

資源排程框架

Hadoop的YARN,不僅可以排程容器叢集,還可以排程非容器叢集

分散式協調框架

有一些通用的功能在主流大資料分散式框架中都需要實現,Apache Zookeeper,學習大資料分散式協調框架不能少

列式儲存資料庫

典型的列式儲存資料庫是HBASE

訊息佇列

Apache Kafka,Kafka的很多設計思想都特別契合分佈流式資料處理的設計理念,幾乎所有大資料招聘簡歷都要求會Kafka

大資料工程師需求的能力,包括要有計算機編碼能力、數學及統計學相關背景,當然如果能對一些特定領域或行業有比較深入的了解,對於其快速判斷並抓準關鍵因素則更有幫助,更容易獲得企業青睞。

最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • 軟著得好處以及申請流程!