首頁>Club>
10
回覆列表
  • 1 # 破局三叉戟

    這種問題不能瞎答亂答,要講基本道理的。泛泛而論,我認為大資料開發有前途,但是你得考慮清楚未來的路徑。(大資料開發的幾個發展路徑和建議在文末,可以直接拉到結尾直接看,然後再看中間的分析內容)。

    最近三年“大資料”這個詞很火,火爆異常,各種培訓班開課廣告滿天飛。但是很多開課的忽悠師傅也不知道大資料分析師、大資料研發工程師、大資料建模工程師、大資料探勘工程師等等有什麼不同或者差異。

    相信提問的兄弟,也不確定大資料開發具體和大資料有什麼關係?和別的開發有什麼不同?為什麼大資料開發有前途?

    本回答嘗試從個人工作中的接觸和朋友的經驗分享總結整理一下,以供參考。

    開宗明義,大資料目前籠統一點的崗位劃分是:

    資料科學家&資料工程師&資料分析師。

    對大資料這個新的細分領域來說,幹活的人有幾種:

    一種是用大資料的,就是資料科學家,或者資料分析師;

    一種是開發大資料平臺的,就是平臺開發工程師。

    當然交叉起來還可以繼續細分,挖掘、建模都可以成為單獨的職位。

    我們不扯遠,專注講大資料開發好了,類似建築行業裡面砌磚的。

    大資料本質其實也是資料,不過也包括了些新的特徵,資料來源廣;資料格式多樣化(結構化資料、非結構化資料、Excel檔案等);資料量大(最少也是TB級別的、甚至可以是PB級別);資料增長速度快。

    所以,大資料開發更多要重視大資料量+多種格式的清洗+大量資料的分析和複雜模型建模+隨時應對變化的資料量和資料結構+高深點的需要注意底層技術提高應用效率。

    我認為通用型的大資料開發需要了解整個領域的技術框架

    ——具體進入某個公司的大資料開發團隊後,可以就該團隊的技術框架深入鑽研

    ——但是如果是進入某公司去負責一整塊大資料開發的話,還是需要了解和熟悉整個領域的技術框架的。

    介紹大資料相關的工作前我們先了解下大資料的處理流程

    我們看到好多略有差異的思路,但是總結起來,無非就是:

    1、資料來源整合和資料收集:結構化資料+不完整結構化的資料(大多數外部資料來源都很亂,各位以後做這個一定會面對很多提供方自以為牛逼的資料)+非結構化資料;前段時間,我遇到一個自稱做了5年資料分析的健身房老闆,說自己也懂大資料分析。。。我問了下他有多少資料量。。。他說5000條客戶資料,我去。。。

    2、匯入資料庫:先結構化,這一步很難,很多人都不知道商務資料需要把主資料和業務資料分開表格——你怎麼能在客戶資料表上面放交易資料呢,這是一對多關係阿。

    3、資料清洗。

    4、資料建模。

    5、資料分析。

    6、資料報表和儀表板。

    在前面做好2步做好後,後面就是持續的重複工作。當然需要不斷根據業務要求做新模型。

    那麼在整個過程裡面需要學習什麼呢?

    第0步:最基本的是學好Linux;

    第1步:學好資料獲取工具,包括資料庫(SQL、Hadoop、Hive);爬蟲工具(Python和Java,以及對應的庫,比如Py的爬蟲庫和資料處理庫等);

    第2步:資料處理層,SQL、Hive、Excel、Python和相關庫、R等;

    第3步:建模層。

    第4步:視覺化工具,參見上圖。

    你會發現,這裡面東西太多了,你能做的也很多。

    既可以當企業的服務於業務部門的資料分析和資料應用開發人員(比如給銷售部門做呈現資料工具,比如給企業IT部門做分析簡化模型工具);

    也可以給外部大資料工具供應商當開發人員;

    也可能給開課講工具應用和分析模型。

    學好數學和業務,還能轉資料分析師和挖掘工程師。

    你說,前途好不好?

  • 中秋節和大豐收的關聯?
  • 吉利遠景S1怎麼樣?