首頁>Club>
2
回覆列表
  • 1 # 三年起步

    大資料是我的主要研究方向之一,同時也在帶大資料方向的研究生,所以我來探討一下這個問題。

    首先,大資料開發通常指的是基於大資料產業鏈的一系列開發任務,涉及到大資料平臺開發、大資料應用開發、大資料分析等,另外還包括資料採集產品的開發、資料整理產品的開發等等,如果向上延伸的話,部分大資料開發任務與人工智慧開發任務也具有密切的聯絡。

    大資料平臺開發通常有兩層含義,一層是進行大資料平臺自身的開發,這屬於研發級開發任務,比如大資料平臺Hadoop就是採用Java語言開發的。整個大資料平臺還涉及到一系列產品,包括HBase、Hive、Avro、Zookeeper、Pig、Mahout、Cassandra等,開發這些產品也需要一個龐大的團隊。進行大資料平臺研發的程式設計師往往需要具備豐富的開發經驗,同時具備較強的研發能力,能夠搭建出一個穩定的分散式計算體系。

    另一層含義是在大資料平臺下進行應用開發,比如在Hadoop、Spark平臺下進行具體的大資料應用開發等,這部分開發通常屬於應用級開發,難度要相對小一些,但是往往需要與具體的場景進行緊密的聯絡,需要開發者具備一定的行業背景知識。

    目前大資料應用開發主要的任務有兩個,其一是進行已有軟體產品的大資料改造;其二是針對於具體的大資料需求進行全新的大資料應用開發,目前由於是大資料落地應用的初期,所以大資料改造的開發任務會相對多一些,未來新的大資料開發任務會逐漸增加。

    相對於大資料開發來說,大資料分析也需要進行程式碼編寫,比如機器學習就是目前比較常見的資料分析方式。機器學習需要進行演算法設計、演算法實現、演算法訓練、演算法驗證和演算法應用,雖然演算法設計是機器學習的核心,但是演算法實現也需要程式設計師來完成具體的開發過程。

  • 2 # 圖南陳

    大資料平臺開發算是大資料開發的一個細分方向吧。

    不過工資都很高,我一個文科生都在學習準備轉行了!

    不知道你是不是也想轉行哈,但我覺得這個文章挺有幫助的,需要的話可以看看哦~

    https://mp.weixin.qq.com/s/SnpegW3DdLC2l02RRMUlyA

  • 3 # python小白社群

    大資料和大資料平臺開發是有區別的,先做個形象比喻平臺開發是開發工具,大資料開發是在用工具來開發。

    如用hbase來做開發的話,那是對大資料平臺本身的開發和最佳化,應該算是平臺開發。在平臺開發裡邊兒有排程系統以及底層的計算引擎和儲存引擎開發,以及大資料本身叢集管理工具都算大資料平臺開發。

    大資料開發本身是藉助平臺對資料做處理。比如程式設計序,邏輯是從hadoop裡用spark把資料讀取出來,進行資料變換處理,最後寫入儲存,最後部署到排程系統執行。這一系列做下來就是大資料開發。

  • 4 # IT人劉俊明

    大資料是我的主要研究方向之一,同時也在帶大資料方向的研究生,所以我來回答一下這個問題。

    首先,大資料開發通常指的是基於大資料產業鏈的一系列開發任務,涉及到大資料平臺開發、大資料應用開發、大資料分析等,另外還包括資料採集產品的開發、資料整理產品的開發等等,如果向上延伸的話,部分大資料開發任務與人工智慧開發任務也具有密切的聯絡。

    大資料平臺開發通常有兩層含義,一層是進行大資料平臺自身的開發,這屬於研發級開發任務,比如大資料平臺Hadoop就是採用Java語言開發的。整個大資料平臺還涉及到一系列產品,包括HBase、Hive、Avro、Zookeeper、Pig、Mahout、Cassandra等,開發這些產品也需要一個龐大的團隊。進行大資料平臺研發的程式設計師往往需要具備豐富的開發經驗,同時具備較強的研發能力,能夠搭建出一個穩定的分散式計算體系。

    另一層含義是在大資料平臺下進行應用開發,比如在Hadoop、Spark平臺下進行具體的大資料應用開發等,這部分開發通常屬於應用級開發,難度要相對小一些,但是往往需要與具體的場景進行緊密的聯絡,需要開發者具備一定的行業背景知識。

    目前大資料應用開發主要的任務有兩個,其一是進行已有軟體產品的大資料改造;其二是針對於具體的大資料需求進行全新的大資料應用開發,目前由於是大資料落地應用的初期,所以大資料改造的開發任務會相對多一些,未來新的大資料開發任務會逐漸增加。

    相對於大資料開發來說,大資料分析也需要進行程式碼編寫,比如機器學習就是目前比較常見的資料分析方式。機器學習需要進行演算法設計、演算法實現、演算法訓練、演算法驗證和演算法應用,雖然演算法設計是機器學習的核心,但是演算法實現也需要程式設計師來完成具體的開發過程。

  • 5 # 演算法

    作為IT行業的一名從業人員,我來回答下這個問題。

    大資料開發是個廣義的開發崗位,大資料平臺開發是個狹義的概念。

    從職務上來理解,大資料平臺開發屬於研發級的開發任務,從事人員都是高學歷、高技能的人才。大資料開發部分從事企業級應用的開發,是Java程式設計師進行崗位升級的首選。

    大資料開發通常指的是基於大資料產業鏈的一系列開發任務,涉及到大資料平臺開發、大資料應用開發、大資料分析等,另外還包括資料採集產品的開發、資料整理產品的開發等。

    我本人從事多年網際網路Java開發,感興趣的朋友可以關注私聊,共同努力,共同進步。

  • 6 # 俗雅科學

    雖然我不是IT業的,但是可以給你舉個例子。

    大資料開發就像用機械挖礦,大資料平臺開發就像是生產挖礦的機械。

  • 7 # 沐靡網路

    大資料是我的主要研究方向之一,同時也在帶大資料方向的研究生,所以我來探討一下這個問題。

    首先,大資料開發通常指的是基於大資料產業鏈的一系列開發任務,涉及到大資料平臺開發、大資料應用開發、大資料分析等,另外還包括資料採集產品的開發、資料整理產品的開發等等,如果向上延伸的話,部分大資料開發任務與人工智慧開發任務也具有密切的聯絡。

    大資料平臺開發通常有兩層含義,一層是進行大資料平臺自身的開發,這屬於研發級開發任務,比如大資料平臺Hadoop就是採用Java語言開發的。整個大資料平臺還涉及到一系列產品,包括HBase、Hive、Avro、Zookeeper、Pig、Mahout、Cassandra等,開發這些產品也需要一個龐大的團隊。進行大資料平臺研發的程式設計師往往需要具備豐富的開發經驗,同時具備較強的研發能力,能夠搭建出一個穩定的分散式計算體系。

    另一層含義是在大資料平臺下進行應用開發,比如在Hadoop、Spark平臺下進行具體的大資料應用開發等,這部分開發通常屬於應用級開發,難度要相對小一些,但是往往需要與具體的場景進行緊密的聯絡,需要開發者具備一定的行業背景知識。

    目前大資料應用開發主要的任務有兩個,其一是進行已有軟體產品的大資料改造;其二是針對於具體的大資料需求進行全新的大資料應用開發,目前由於是大資料落地應用的初期,所以大資料改造的開發任務會相對多一些,未來新的大資料開發任務會逐漸增加。

    相對於大資料開發來說,大資料分析也需要進行程式碼編寫,比如機器學習就是目前比較常見的資料分析方式。機器學習需要進行演算法設計、演算法實現、演算法訓練、演算法驗證和演算法應用,雖然演算法設計是機器學習的核心,但是演算法實現也需要程式設計師來完成具體的開發過程。

  • 8 # 未來資料科技

    其實這兩個很容易區分的!本身存在有很大的區

    大資料平臺開發就是開發大資料所用到的東西,比如hadoop是目前大資料最基本的組成!開發hadoop以及它的一些生態系統,或者升級本身,要是夠厲害也可以開發大資料的系統!這些就屬於大資料平臺開發。

    下圖是大資料生態圈

    而大資料開發就是利用開發好的平臺,比如用hadoop,spark構建來大資料系統,把大資料運用生活中

    舉個很簡單的例子就是大資料平臺開發屬於製造工具,大資料開發就是利用工具創造價值!

  • 9 # 皮皮魯的科技星球

    我用一個比喻說說個人理解吧:大資料平臺在一些地方被稱為資料倉庫,如果把資料倉庫比作糧倉的話,大資料平臺開發工程師提供工具,比如研發更快的收割機、設計更大的倉庫等等;大資料開發工程師使用這些工具處理資料,比如將農田裡的收割、晾曬、去皮、研磨成可以食用的大米麵粉。

    資料科學金字塔

    上圖的資料金字塔展示了資料科學領域各崗位的大致職能。

    最底層是資料收集部分,主要是原始資料的生成和收集。這部分資料來自各種IoT裝置、感測器、手機APP上的使用者行為、外部資料、以及使用者生成資料(類似抖音使用者主動釋出的影片)。第二層是資料儲存部分,一般需要構建資料倉庫,生成一系列資料流,將原始資料儲存至大資料平臺。第三層是資料清洗和轉化部分,主要對資料進行清洗和預處理,將資料轉化為更高層次的資料,為上層資料分析做準備。第四層是資料聚合部分,主要做一些基礎的資料分析和業務報表,進行一些資料探勘,並構建機器學習的訓練資料。第五層是機器學習部分,主要構建機器學習模型,將模型釋出到生產系統,進行AB實驗。最頂層是人工智慧部分,頂級的科學家提出新演算法或新架構。

    大資料開發和大資料平臺開發的工作都主要集中在1、2、3三層。

    原始的資料就像農田裡的麥子,需要經過層層工序,才能最終將其轉化餐桌上的麵包。大資料開發和大資料平臺開發打通了糧食收割、清理、制粉的整個流程,將原始的糧食轉化成了麵粉。

    大資料平臺開發

    大資料平臺工程師開發主要關注提供大資料基礎設施和工具。目前的大資料公司都建有自己的資料倉庫,資料倉庫中的一個子任務就是構建OLAP(Online Analytical Processing,聯機分析處理)工具:主要是在Hadoop生態上,構建大資料分析平臺。

    大資料平臺開發所做的工作包括提供HDFS、HBase、物件儲存等資料儲存服務;Hive和Spark批處理、Druid和Kylin預處理等資料分析工具;Spark Streaming、Flink等流式計算工具。

    總之,大資料平臺開發工程師關注基礎設施和工具。

    大資料開發

    大資料工程師的一個重要任務是ETL(Extract、Trasform、Load):使用大資料平臺開發工程師提供的基礎設施和工具,在收集到的資料上做提取和轉化,生成更高層次的資料。

    技能要求

    無論是大資料平臺開發工程師還是大資料開發工程師都對從業人員的“程式設計開發”和“大資料”大資料要求比較高,而且資料量越大的公司,對技能要求越高。公司一般要求工程師在Java和Scala語言上,基於Hadoop生態系統,構建實時或批次的資料流。但公司與公司的差異很大,整個技術棧和工作內容與公司架構高度相關。某招聘APP上對大資料開發工程師的技能要求:Java、Scala、Linux、Hadoop、Kafka、Spark、Flink等。

    面試時一般會重點考察候選人對Google大資料三大論文的理解,即MapReduce、GFS和BigTable,分別對應了開源的Hadoop MapReduce、HDFS和HBase,這三篇論文也被稱為驅動大資料的三駕馬車。

    小結

    大資料平臺開發工程師提供基礎設施和工具,是大資料平臺的底層保障,工作內容離業務較遠。大資料開發工程師依賴這些工具,在業務資料做提取和轉化,構建資料流,工作內容離業務較近。

  • 10 # 瓜果飄香科技

    首先,大資料開發通常指的是基於大資料產業鏈的一系列開發任務,涉及到大資料平臺開發、大資料應用開發、大資料分析等,另外還包括資料採集產品的開發、資料整理產品的開發等等,如果向上延伸的話,部分大資料開發任務與人工智慧開發任務也具有密切的聯絡。

    大資料平臺開發通常有兩層含義,一層是進行大資料平臺自身的開發,這屬於研發級開發任務,比如大資料平臺Hadoop就是採用Java語言開發的。整個大資料平臺還涉及到一系列產品,包括HBase、Hive、Avro、Zookeeper、Pig、Mahout、Cassandra等,開發這些產品也需要一個龐大的團隊。進行大資料平臺研發的程式設計師往往需要具備豐富的開發經驗,同時具備較強的研發能力,能夠搭建出一個穩定的分散式計算體系。

    另一層含義是在大資料平臺下進行應用開發,比如在Hadoop、Spark平臺下進行具體的大資料應用開發等,這部分開發通常屬於應用級開發,難度要相對小一些,但是往往需要與具體的場景進行緊密的聯絡,需要開發者具備一定的行業背景知識。

    前大資料應用開發主要的任務有兩個,其一是進行已有軟體產品的大資料改造;其二是針對於具體的大資料需求進行全新的大資料應用開發,目前由於是大資料落地應用的初期,所以大資料改造的開發任務會相對多一些,未來新的大資料開發任務會逐漸增加。

    相對於大資料開發來說,大資料分析也需要進行程式碼編寫,比如機器學習就是目前比較常見的資料分析方式。機器學習需要進行演算法設計、演算法實現、演算法訓練、演算法驗證和演算法應用,雖然演算法設計是機器學習的核心,但是演算法實現也需要程式設計師來完成具體的開發過程。

  • 11 # Manoeuvre

    不對。這個問題更適合有實際開發經歷的人來回答啊!

    【廣義地說】,我認為大資料開發和大資料平臺開發其實是一回事。為什麼呢?

    1,大資料開發是對技術的落地實現,根據ETL策略將資料整備;

    2,當資料處理完畢後,就不是大資料開發的事了,而是其它技術的事了,如展示、分析、AI等,不能混為一談!

    3,而Hadoop、Hive以及Spark等大資料生態元件是開源工具,並不是什麼既有平臺,當然開發者也可以二次開發它們甚至重構(一般來說不現實),開發者呼叫這些元件的API介面,實現資料的ETL萃取-轉置-載入等;

    4,當開發的時候,開發者需要封裝程式碼複用,提供介面進行擴充套件,逐漸形成一個應用,那這個應用就逐漸長成一個平臺了啊!因此大資料開發和平臺開發是一樣的意思。

    【狹義地說】,開發者可以基於既有的大資料開發平臺進行大資料開發,可以省很多事。

  • 12 # Lake說科技

    常說的大資料開發,其實是指資料研發偏ETL方向,大資料平臺開發,則是指開發各種簡化資料任務程式設計的平臺,常見的有阿里的Dataworks、網易的猛獁。

    兩者的主要區別:大資料研發需要你對資料倉庫理論要有一定的經驗,這個崗位偏向資料處理類技能。大資料平臺開發則是需要你對Java技術棧要熟練掌握使用,這個崗位更偏向於工程類程式碼開發。

    大資料研發偏向於數倉方面的技術理論,要能夠熟練使用SQL語言

    首先,先說一下大資料研發的主要職能,就是結合公司業務資料,為公司構建資料倉庫,透過業務指標資料指導運營同學,更好的運營業務,同時幫助上層領導,透過資料看清目前公司的業務發展情況,幫助其作出正確的決策。

    大資料研發需要結合資料倉庫理論,對於公司的資料進行加工處理,然後進行分層儲存。分層的含義具體是指按照資料不同的型別,對其進行規範化命名和儲存。

    常見的資料分層,ODS層、DWD層、DWS層、DM層。ODS層代表原始資料層,這部分資料完全來自線上,沒有經過加工處理。DWD和DWS層表示能夠進行通用的公共資料明細層和公共指標資料層,這兩層一般代表著公共的統一業務口徑資料。DM層則是具體的業務定製化資料層,一般資料來源於DWD層和DWS層。

    大資料平臺開發,需要對Java技術棧掌握的紮實,同時需要對大資料元件能夠使用

    大資料平臺開發,顧名思義,就是開發資料平臺,給資料研發以及其他開發同學使用,開發資料任務。常見的兩類大資料平臺:離線計算平臺和實時計算平臺。

    目前很多公司的大資料平臺都是使用Java技術棧來進行開發的,首先你需要對Java語言的基礎和使用要有很深入的理解。其次,目前大資料平臺會使用 Spring Boot框架來進行開發,Spring 的框架你要學會使用。如果有資料治理、資料服務的經驗更好。

    針對不同資料平臺的型別,你還需要對相關的大資料元件要有一定的使用經驗和原理理解。比如你開發大資料離線計算平臺,你需要對 Hadoop、Hive、Spark、Flume、HBase元件的實踐要有一定的經驗。

    對於實時計算平臺,你需要對Flink、Spark Streaming、Storm、Kafka元件要有一定的理解。目前很多公司的實時計算框架使用的是 Flink ,如果你對實時計算感興趣的話,可以研究 Flink 底層的技術原理,也歡迎和我一起探討。

  • 中秋節和大豐收的關聯?
  • 如果有人給我投資,我全權運營,不出資,應該佔多少股份合適?