這種問題不能瞎答亂答,要講基本道理的。泛泛而論,我認為大資料開發有前途,但是你得考慮清楚未來的路徑。(大資料開發的幾個發展路徑和建議在文末,可以直接拉到結尾直接看,然後再看中間的分析內容)。
最近三年“大資料”這個詞很火,火爆異常,各種培訓班開課廣告滿天飛。但是很多開課的忽悠師傅也不知道大資料分析師、大資料研發工程師、大資料建模工程師、大資料探勘工程師等等有什麼不同或者差異。
相信提問的兄弟,也不確定大資料開發具體和大資料有什麼關係?和別的開發有什麼不同?為什麼大資料開發有前途?
本回答嘗試從個人工作中的接觸和朋友的經驗分享總結整理一下,以供參考。
開宗明義,大資料目前籠統一點的崗位劃分是:
對大資料這個新的細分領域來說,幹活的人有幾種:
一種是用大資料的,就是資料科學家,或者資料分析師;
一種是開發大資料平臺的,就是平臺開發工程師。
當然交叉起來還可以繼續細分,挖掘、建模都可以成為單獨的職位。
我們不扯遠,專注講大資料開發好了,類似建築行業裡面砌磚的。
所以,大資料開發更多要重視大資料量+多種格式的清洗+大量資料的分析和複雜模型建模+隨時應對變化的資料量和資料結構+高深點的需要注意底層技術提高應用效率。
——具體進入某個公司的大資料開發團隊後,可以就該團隊的技術框架深入鑽研
——但是如果是進入某公司去負責一整塊大資料開發的話,還是需要了解和熟悉整個領域的技術框架的。
我們看到好多略有差異的思路,但是總結起來,無非就是:
1、資料來源整合和資料收集:結構化資料+不完整結構化的資料(大多數外部資料來源都很亂,各位以後做這個一定會面對很多提供方自以為牛逼的資料)+非結構化資料;前段時間,我遇到一個自稱做了5年資料分析的健身房老闆,說自己也懂大資料分析。。。我問了下他有多少資料量。。。他說5000條客戶資料,我去。。。
2、匯入資料庫:先結構化,這一步很難,很多人都不知道商務資料需要把主資料和業務資料分開表格——你怎麼能在客戶資料表上面放交易資料呢,這是一對多關係阿。
3、資料清洗。
4、資料建模。
5、資料分析。
6、資料報表和儀表板。
在前面做好2步做好後,後面就是持續的重複工作。當然需要不斷根據業務要求做新模型。
第0步:最基本的是學好Linux;
第1步:學好資料獲取工具,包括資料庫(SQL、Hadoop、Hive);爬蟲工具(Python和Java,以及對應的庫,比如Py的爬蟲庫和資料處理庫等);
第2步:資料處理層,SQL、Hive、Excel、Python和相關庫、R等;
第3步:建模層。
第4步:視覺化工具,參見上圖。
既可以當企業的服務於業務部門的資料分析和資料應用開發人員(比如給銷售部門做呈現資料工具,比如給企業IT部門做分析簡化模型工具);
也可以給外部大資料工具供應商當開發人員;
也可能給開課講工具應用和分析模型。
學好數學和業務,還能轉資料分析師和挖掘工程師。
你說,前途好不好?
這種問題不能瞎答亂答,要講基本道理的。泛泛而論,我認為大資料開發有前途,但是你得考慮清楚未來的路徑。(大資料開發的幾個發展路徑和建議在文末,可以直接拉到結尾直接看,然後再看中間的分析內容)。
最近三年“大資料”這個詞很火,火爆異常,各種培訓班開課廣告滿天飛。但是很多開課的忽悠師傅也不知道大資料分析師、大資料研發工程師、大資料建模工程師、大資料探勘工程師等等有什麼不同或者差異。
相信提問的兄弟,也不確定大資料開發具體和大資料有什麼關係?和別的開發有什麼不同?為什麼大資料開發有前途?
本回答嘗試從個人工作中的接觸和朋友的經驗分享總結整理一下,以供參考。
開宗明義,大資料目前籠統一點的崗位劃分是:
資料科學家&資料工程師&資料分析師。對大資料這個新的細分領域來說,幹活的人有幾種:
一種是用大資料的,就是資料科學家,或者資料分析師;
一種是開發大資料平臺的,就是平臺開發工程師。
當然交叉起來還可以繼續細分,挖掘、建模都可以成為單獨的職位。
我們不扯遠,專注講大資料開發好了,類似建築行業裡面砌磚的。
大資料本質其實也是資料,不過也包括了些新的特徵,資料來源廣;資料格式多樣化(結構化資料、非結構化資料、Excel檔案等);資料量大(最少也是TB級別的、甚至可以是PB級別);資料增長速度快。所以,大資料開發更多要重視大資料量+多種格式的清洗+大量資料的分析和複雜模型建模+隨時應對變化的資料量和資料結構+高深點的需要注意底層技術提高應用效率。
我認為通用型的大資料開發需要了解整個領域的技術框架——具體進入某個公司的大資料開發團隊後,可以就該團隊的技術框架深入鑽研
——但是如果是進入某公司去負責一整塊大資料開發的話,還是需要了解和熟悉整個領域的技術框架的。
介紹大資料相關的工作前我們先了解下大資料的處理流程我們看到好多略有差異的思路,但是總結起來,無非就是:
1、資料來源整合和資料收集:結構化資料+不完整結構化的資料(大多數外部資料來源都很亂,各位以後做這個一定會面對很多提供方自以為牛逼的資料)+非結構化資料;前段時間,我遇到一個自稱做了5年資料分析的健身房老闆,說自己也懂大資料分析。。。我問了下他有多少資料量。。。他說5000條客戶資料,我去。。。
2、匯入資料庫:先結構化,這一步很難,很多人都不知道商務資料需要把主資料和業務資料分開表格——你怎麼能在客戶資料表上面放交易資料呢,這是一對多關係阿。
3、資料清洗。
4、資料建模。
5、資料分析。
6、資料報表和儀表板。
在前面做好2步做好後,後面就是持續的重複工作。當然需要不斷根據業務要求做新模型。
那麼在整個過程裡面需要學習什麼呢?第0步:最基本的是學好Linux;
第1步:學好資料獲取工具,包括資料庫(SQL、Hadoop、Hive);爬蟲工具(Python和Java,以及對應的庫,比如Py的爬蟲庫和資料處理庫等);
第2步:資料處理層,SQL、Hive、Excel、Python和相關庫、R等;
第3步:建模層。
第4步:視覺化工具,參見上圖。
你會發現,這裡面東西太多了,你能做的也很多。既可以當企業的服務於業務部門的資料分析和資料應用開發人員(比如給銷售部門做呈現資料工具,比如給企業IT部門做分析簡化模型工具);
也可以給外部大資料工具供應商當開發人員;
也可能給開課講工具應用和分析模型。
學好數學和業務,還能轉資料分析師和挖掘工程師。
你說,前途好不好?