回覆列表
  • 1 # Hotodo奮鬥吧

    大資料開發、資料倉庫、資料安全、資料分析、資料探勘等都是圍繞大資料的商業價值應運而生。大資料開發主要分為大資料平臺開發(研發級)、大資料應用開發和大資料分析(統計學和機器學習),不同崗位需要面對不同的崗位職責,也需要具備不同的知識結構。

    大資料開發做什麼?

    負責公司資料平臺與數倉模型設計與開發;規範底層資料儲存,結構化查詢邏輯,方便快捷獲取資料;支援實時資料報表、離線資料報表、互動式資料分析等多種資料應用;對大資料相關的前沿技術進行預研。

    大資料開發需要具備的基本技能:目前從事大資料應用開發的語言包括Java、Python、Scala、R等,需要熟悉Hadoop、HBbase、hive、spark、Flink、ES、Presto、Flume、Kafka生態的原理和使用方法,掌握資料開發、資料探勘的各項流程。

    Java語言由於具備較為完善的生態,而且Hadoop平臺自身也是Java語言開發的,所以Java語言往往是比較常見的選擇。在學習Java語言的過程中,可以同步接觸Hadoop平臺,掌握Hadoop平臺的整體結構,並且透過Java完成Hadoop平臺的一些案例實驗,進而逐步掌握在Hadoop平臺下的Java應用開發。

    大資料分析通常採用統計學分析方式和機器學習方式兩種,統計學方式採用Python和R語言是不錯的選擇,而機器學習往往更多采用Python語言來實現,同時需要學習一系列演算法的實現過程,包括Knn、決策樹、支援向量機、樸素貝葉斯等等。所以,從事大資料分析需要具備一定的數學功底。

  • 2 # 大卓

    主要的方向包括:資料分析師、Hadoop開發工程師、大資料開發工程師、資料探勘工程師、演算法工程師

    這是積雲教育大資料方向學完畢業後能夠從事的方向,像一般的java班可能學的東西較少,能夠從事的工作方向也是有限的。

  • 3 # 玩物雜談

    大資料,是對資料進行抓取,整理,分析處理,然後提供給其它部門使用。可以作為其它業務的資料來源,也可以作為業務運營的分析依據,還可以做為決策依據。Java開發,是PD使用 JAVA語言實現業務功能,曾經見到過大資料的同事使用JAVA分析資料的,但分析資料的python用的比較多。

  • 4 # 天道酬勤知行合一

    大資料開發使用了那些技術,分別是hadoop,hive,hbase,spark等,為什麼等呢,它有不用的應用的場景。有日誌清洗場景,有推薦場景,有資料探勘場景,但基本的還是上面那些,學大資料,我覺得還要學scala語言,它是函式程式設計,學了java應該對scala會比較容易學,但大資料的方向比較廣,需要你好好想想了

  • 5 # java全棧之路

    大資料方面有很多的技術:

    一是大資料平臺本身,一般是基於某些Hadoop產品如CDH的產品部署後提供服務。部署的產品裡面有很多的元件,如HIVE、HBASE、SPARK、ZOOKEEPER等,一般都是基於Java的;

    二是ETL,即資料抽取過程;大資料平臺中的原始資料一般是來源於公司內的其它業務系統,如銀行裡面的信貸、核心等,這些業務系統的資料每天會從業務系統抽取到大資料平臺中,然後進行一系列的標準化、清理等操作,再然後經過一些建模生成一些模型給下游系統使用; ETL一般對應有一個排程平臺,一般是Java等技術實現的,基於Kettle進行封裝;因此在ETL過程中有以下工作:一是排程平臺的開發(也可以是產品部署);二是ETL過程中需要使用到的一些Shell指令碼的開發;三是ETL及建模過程中呼叫的一些SQL過程的開發;當然也還有模型的設計等較為高階的工作;

    三就是資料分析了;在資料收集完成後基於這些資料要做一些什麼樣的處理,典型的如報表應用,那每天可能就是寫SQL開發報表了;還有一些如風險監測等平臺,都要基於大資料平臺收集的資料來進行處理;更往上就是一些如客戶行為預測分析等分析場景,這個時候就需要使用一些更加專業的資料分析工具如SAS或者其它的一些更加高階的語言如Python、R語言等來進行資料探勘及分析了。

    你所說的大資料平臺開發,需要明確到底是哪方面的開發才能做進一步的解答。

  • 6 # 龍捲風房產

    大資料這一塊你可以參考一下阿里雲的體系,在國內阿里雲大資料做的還是非常快的。

    大資料開發應該是大型資料庫的抓取、處理、分析、得出想要的結論這樣的體系,基本也是需要寫程式碼的。個人感覺和Java類似,只是領域不同,一般資料用“量級”來顯示的時候就需要程式碼處理了。總的來說,大資料開發要求更多一點,除了開發能力還需要資料分析能力、資料建模等等。

  • 7 # 花千骨講科技

    大資料開發是大資料職業發展的方向之一,另一方面是大資料分析。從工作內容,主要負責大資料的大資料探勘,資料清洗的發展,資料建模工作,主要負責處理和大資料應用,主要在發展工作,結合大資料視覺化分析工程師,挖掘出價值的資料,為企業提供業務發展支援。

    瞭解大資料開發是什麼,如果您想從事大型資料開發工作,需要學習什麼?。

    讓我們用光環大資料開發課程的例子來舉例說明。

    1階段:JavaSE開發

    階段二:JavaEE開發

    第三階段:併發程式設計的實戰開發

    第四階段:Linux的精彩對話

    第五階段:Hadoop生態系統

    第六階段:Python實際開發

    第七階段:風暴實時發展

    第八階段:星火生態系統

    階段九:Elasticsearch

    十階段:Docker容器引擎

    第十一階段:機器學習

    階段十二:超級叢集最佳化

    第十三階段:大型資料專案實戰

    總結以上課程內容。大資料的發展需要java,linxu,資料庫,Hadoop,Spark,風暴,Python,Elasticsearch知識、碼頭等。

    目前,大資料通道的學習主要是透過參與大資料的訓練,因為大資料的技術門檻很高,一般很難透過自學來學習。

    最後,什麼樣的工作可以從事大資料的開發?:

    1、Hadoop開發工程師

    2。資料探勘工程師

    三.專業的資料科學家

    4。首席資料官(CDO)

    5.etl的研究與開發

    6發展。大資料資訊體系結構

    7。資料倉庫的研究

    8.olap發展

    9。重大資料安全研究

  • 8 # 加米穀大資料

    從工作內容上來說,大資料開發主要是負責大資料探勘,大資料清洗處理,大資料建模等工作,主要是負責大規模資料的處理和應用,工作主要以開發為主,與大資料視覺化分析工程師相互配合,從資料中挖掘出價值,為企業業務發展提供支援。

    大資料開發工程師的主要工作內容:

    1、負責公司大資料平臺的開發和維護,負責大資料平臺持續整合相關工具平臺的架構設計與產品開發等;

    2、主要從事網路日誌的大資料分析工作,包括:網路日誌的資料提取、資料融合及分析;專注於實時計算、流式計算、資料視覺化等技術的研發;

    3、負責網路安全業務主題建模等工作。

    相關:

    大資料開發工程師,所學習的知識是做什麼的:

    https://www.toutiao.com/i6618826530220933636/

  • 9 # Lake說科技

    大家好,我是Lake,專注大資料技術、程式設計師經驗、網際網路科技見解分享。

    作為一個軟體工程師,我個人目前從事的就是大資料方向。目前大資料可以分成很多具體的方向:大資料平臺開發、大資料分析師(BI)、大資料運維、大資料處理(ETL)、大資料元件開發(偏大資料元件底層)。不同的工作方向,其工作內容還是有一定差異的,下面我來說下不同工作崗位具體的工作內容:

    大資料平臺開發更偏向對整體資料平臺功能性開發,比如離線計算平臺、實時計算平臺、演算法推薦平臺等等。平時用的較多的語言是Java,其更偏向於Java開發。如果使用者是上層使用者,大資料相關元件作為最低層,大資料平臺就橋接著使用者和大資料元件,方便使用者使用大資料元件的功能。

    大資料分析師(BI同學)更多的是對我們已有的線上資料進行價值分析,從相關的線上使用者所產生的資料中,發現出一些潛在的商業價值,能夠更好的去輔助決策層的戰略決定。BI需要對資料敏感、細心,善於從資料中發現業務價值,平常很多工作就是資料視覺化、簡單化、深入化、PPT化。

    大資料運維同學主要是保障公司相關機器叢集的穩定,使得它們不能出現故障。當申請到新的機器時,會在新機器上面部署各種大資料元件組成的叢集。同樣,當有業務同學需要用到機器時,可以給大資料運維同學提需求。當大資料元件叢集突然因為什麼變得叢集不穩定時,運維同學需要去定位問題和解決問題,運維同學平時用的較多的Linux Shell指令碼和命令列等,其職位更偏向於為其他同學提供機器穩定保障。

    ETL同學(數倉同學)則是對我們的線上資料進行資料加工,形成DWD層(公共明細層)、DWS層(公共彙總層),形成統一的指標口徑。ETL同學會根據不同的業務需求,一般使用SQL進行資料指標的加工,指導業務同學更好的運營相關業務。同時ETL同學更關注業務指標的口徑,在指標開發的過程中,使用數倉模型對業務資料進行建模,便於開發的指標資料更加統一,減少口徑偏差。

    大資料元件開發,更多的是結合公司業務,對大資料基礎元件進行定製化開發、效能最佳化、BUG修復等等。同時,也需要對業務方接入進行問題答疑,指導他們使用大資料元件滿足業務需求。同時,你也需要運維你的大資料元件,當出現故障BUG時,需要你能及時修復,保證大資料元件的穩定。大資料元件開發需要對你自己運維的元件原理掌握的很全很深,只有這樣,你才能夠更好的指導別人。

    總結

    大資料開發有很多方向,你可以結合你自己的興趣,選擇一個從事方向。大資料目前很多網際網路公司都在做,所以大資料整體的就業情況還是很不錯的。當你選擇具體的大資料方向後,希望你能夠深入持續的學習你所從事的方向,技術在於深,而不在於淺嘗輒止。

  • 10 # 千鋒頭號粉絲

    大資料的火爆我們是有目共睹的,學習大資料無疑都會選擇一家專業的大資料學習學校,因為一般自學的效果都不是很好,畢竟大資料包含的技術知識太多了,首先要先了解大資料的一些基本概念。

    一、基本概念

    在講什麼是大資料之前,我們首先需要理清幾個基本概念。

    1.資料

    關於資料的定義,大概沒有一個權威版本。為方便,此處使用一個簡單的工作定義:資料是可以獲取和儲存的資訊。

    直觀而言,表達某種客觀事實的數值是很容易被人們識別的資料(因為那是“數”)。但實際上,人類的一切語言文字、圖形圖畫、音像記錄,所有感官可以察覺的事物,只要能被記下來,能夠查詢到,就都是資料(data)。

    不過數值是所有資料中很容易被處理的一種,許多和資料相關的概念,例如下面的資料視覺化和資料分析,都是立足於數值資料的。

    傳統意義上的資料一詞,尤其是相對於今天的“大資料”的“小資料”,主要指的就是數值資料,甚至在很多情況下專指統計數值資料。這些數值資料用來描述某種客觀事物的屬性。

    2.資料視覺化

    對應英語的data visulization(或可譯為資料展示),指透過圖表將若干數字以直觀的方式呈現給讀者。比如非常常見的餅圖、柱狀圖、走勢圖、熱點圖、K線等等,目前以二維展示為主,不過越來越多的三維影象和動態圖也被用來展示資料。

    3.資料分析

    這一概念狹義上,指統計分析,即透過統計學手段,從資料中精煉對現實的描述。例如:針對以關係型資料庫中以table形式儲存的資料,按照某些指定的列進行分組,然後計算不同組的均值、方差、分佈等。再以視覺化的方式講這些計算結果呈現出來。目前很多文章中提及的資料分析,其實是包括資料視覺化的。

    4.資料探勘

    這個概念的定義也是眾說紛紜,落到實際,主要是在傳統統計學的基礎上,結合機器學習的演算法,對資料進行更深層次的分析,並從中獲取一些傳統統計學方法無法提供的Insights(比如預測)。

    簡單而言:針對某個特定問題構建一個數學模型(可以把這個模型想象成一個或多個公式),其中包含一些具體取值未知的引數。我們將收集到的相關領域的若干資料(這些資料稱為訓練資料)代入模型,透過運算(運算過程稱為訓練),得出那些引數的值。然後再用這個已經確定了引數的模型,去計算一些全新的資料,得出相應結果。這一過程叫做機器學習。

    機器學習的演算法紛繁複雜,常用的主要有迴歸分析、關聯規則、分類、聚類、神經網路、決策樹等。

  • 中秋節和大豐收的關聯?
  • 明朝在末期為何會陷入財政困難?