-
1 # 談情為說愛
-
2 # 西線學院
關於資料分析師,資料工程師和資料科學家有什麼區別,三者有著相關的共同點,又有著不同點,資料科學家的影響力與網際網路同進同退。資料工程師和資料分析師與資料科學家攜手共同完成這幅“大資料時代”鉅作。
資料科學家是什麼樣一個存在呢?
通常情況下,資料科學家有數學或物理方面的高等學位。有博士學位的情況並不少見,碩士學位僅是一個前提條件。資料科學家精通統計建模以及如何構建與定製高階數學演算法。這既在他們專業範圍內,也是他們所擅長的地方。我聽到過有人這樣形容一個數據科學家“軟體工程技能牛過多數人的酷炫統計學家”。
我結合加工的說:所謂資料科學家,是指運用統計分析、機器學習、分散式處理等技術,從大量資料中提取出對業務有意義的資訊,以易懂的形式傳達給決策者,並創造出新的資料運用服務的人才。
資料工程師如何定義呢?
資料工程師一般被定義成“深刻理解統計學科的明星軟體工程師”。如果你正為一個商業問題煩惱,那麼你需要一個數據工程師。這些夥計就是那些能提供可建模資料所需平臺的人。他們的核心價值在於他們藉由清晰資料建立資料管道的能力。
如何區分資料科學家,資料工程師與資料分析師
資料工程師對演演算法有相當好的理解。因此,資料工程師理應能執行基本資料模型。商業需求的高階化催生了演算高度複雜化的需求。很多時候,這些需求超過了資料工程師掌握知識範圍,這個時候你就需要打電話尋求資料科學家的幫助。
資料分析師如何理解呢?
資料分析師能洞悉一個方程式的商業意義。他們知道如何提出正確的問題,非常善於資料分析,資料視覺化和資料呈現。不管是給另一個數據分析師還是C級執行做演講,資料分析師都是資料提取,模式識別以及從大量資料中洞察問題方面的能手。
如果你或者你的公司正考慮順應這股大資料浪潮的發展,你應該從明確你想利用大資料解決所面臨的商業問題處下手。接著找出你真正的需求:是資料採集,檢索,倉儲還是資料分析?然後編寫相應的職位描述並做好準備。
-
3 # 一米智慧觀
編者按:資料科學和資料分析,在技術領域或其他相關行業工作的人可能會經常看到這兩個術語,雖然他們倆看起來挺像,但是這兩個術語是完全不同的,對業務有不同的影響。
資料科學就像包含了許多專業和領域的科學一樣,資料科學也是獲取資訊的各種模型和方法的廣義術語。在資料科學的範疇內,科學方法、數學、統計學和其他工具用來分析和操縱資料。如果一個工具或過程透過資料分析,從中獲取某種資訊,那麼,它可能屬於資料科學。
實踐資料科學歸結為連線資訊和資料點,以找到可用於業務的連線。資料科學透過嘗試找到新的模式和視角,深入瞭解未知世界。
資料科學試圖建立連線併為未來做好計劃,而不是像資料分析所做的那樣,檢查假設。資料科學通常透過提供資料上的新觀點,或以前沒看到不知道的所有的連線,幫助組織從查詢資料轉移到洞察力上。
資料分析如果資料科學是掌握工具和方法的房子,那麼資料分析就是該房屋的特定空間。它與資料科學有關係,但是更具體和集中。資料分析通常比資料科學更受到關注,因為資料分析師不僅僅尋找資料之間的連線,而是關注一個特定的目標,透過資料排序來尋找支援的方法。資料分析通常是自動化的,可以在某些領域提供意見和見解。
資料分析包括梳理資料,找出可用於幫助實現組織目標的巨大財富。基本上,分析將資料分類成組織知道自己瞭解的資料和知道自己不瞭解的資料,並且可以用來衡量過去,現在或將來的事件。資料分析透過將趨勢和模式與公司的真實目標聯絡起來,從精準分析轉移到會給公司帶來什麼影響,並逐漸轉向提升業務率和尋找戰略重點。
資料科學家和資料分析師的差異資料科學和資料分析之間看起來只有微妙的差異,但是實際上兩者可能對公司產生很大的影響。
一開始,資料科學家和資料分析師就有不同的背景,履行不同的職責,所以能正確使用這些術語有助於公司聘請合適的人員來處理各自的任務。資料分析和資料科學可以用來找到不同的東西,對於企業來說這些都是有用的,兩者都不能單獨應用於所有情況。資料分析常用於如醫療保健,遊戲和旅遊等行業,而資料科學常用於網際網路搜尋和數字廣告中。
資料科學在人工智慧和機器學習的發展中也發揮著越來越重要的作用。許多公司正在轉向允許他們使用計算機篩選大量資料的系統,例如在企業快閃記憶體系統上,使用演算法來找到最有助於其組織實現目標的連線。機器學習在許多行業具有巨大的潛力,無疑在未來如何運作企業方面發揮巨大的作用。因此,組織和員工瞭解資料科學與資料分析之間的區別,以及對每個學科的作用至關重要。
雖然存在差異,但資料科學和資料分析都是未來工作和資料的重要組成部分。這兩個術語應該被希望理解資料,並能引領技術變革的公司所接受。
智慧觀 編譯
我在關於資料科學的文章中經常能看到分析學術語。所以我認為資料科學家跟資料分析師差不多是一樣的。但是這種想法很顯然是不對的。
請說說既然兩者是有區別的,那新手和比如有3年或者4年經驗的人之間的薪資差距多大?
回覆列表
資料分析師和資料科學家的區別,實際上體現了市場從傳統資料時代向大資料時代的進化。那麼傳統資料分析與大資料到底有什麼區別呢?個人認為所謂的“4V”特徵有些隔靴搔癢,無法從工業界實踐的角度準確地解釋兩者的區別。在我們看來,大資料區別於傳統資料使用的關鍵點,可以用下圖中的的三個關鍵特徵來描述:<img src="//s3.pstatp.com/wenda/wenda_web/static/style/image/loading_a788ad0.gif" _src="https://pic4.zhimg.com/v2-b4840b0055035e9f8fa2657af6f51dd3_b.png" data-rawwidth="865" data-rawheight="469" width="865" data-original="https://pic4.zhimg.com/v2-b4840b0055035e9f8fa2657af6f51dd3_r.png">(1)行為資料:傳統的資料處理任務,往往面對的是交易資料。所謂交易資料,指的是商業活動中必須記錄的資料,例如電信運營商的話費充值、通話記錄,銀行的存取款、利息等。交易資料處理的規模往往並不算太大,但是對一致性和實時性的要求非常高,IOE的計算架構為交易資料處理提供了較成熟的方案。與此相對,商業活動中產生但是並非必須記錄的資料,就是行為資料。電信運營商採集到的使用者位置,銀行的視窗排隊,以及網站的使用者訪問日誌等,都屬於行為資料。與交易資料相比,行為資料的加工有兩個特點,首先是規模巨大,其次是不過對一致性的要求要低得多:比如網站的日誌丟失千分之一,往往並不是什麼嚴重的事故。由於這兩個特點,傳統的IOE架構並不合適,這些是大資料架構產生的原動力。(2)全量加工:如果資料規模很大,並且問題無法透過資料取樣的方法來降低處理複雜程度,那就必須利用一些專門為海量資料處理而設計的計算和儲存技術,例如MapReduce,NoSQL資料庫等,來實現。如果透過資料取樣能夠顯著降低資料處理的複雜程度,同時解決問題的效果(即目標函式)沒有太大的下降,那麼顯然應該這樣做。一般的統計報表、報告等,往往屬於這類問題。另有一些資料問題,基本上不可能只處理一小部分資料來達到處理全量資料的效果,或者說,隨著資料取樣率的降低,解決問題的收益快速下降,這類問題是典型的大資料問題,個性化推薦和計算廣告等問題,需要用到每一個人的行為做定製化推送,而無法只採樣部分人做處理,符合這一特徵。(3)自動化應用:使用資料的應用有兩種型別,一種是洞察(insight)應用,即對資料作統計分析後,得到整體的結果報表,再由決策者根據結果進行決策。洞察應用傳統典型的例子,是企業的財務報表;而商業智慧(Business Intelligence, BI)也屬於洞察應用。另外一種是自動化(automation)應用,即將資料處理的結果直接送給對業務作自動決策的引擎。計算廣告正式是典型的自動化應用,從使用者行為資料收集,到受眾定向過程,再到線上根據使用者標籤的自動決策,整個過程都是自動化進行的,人的作用只是建立流程和調整策略。電商的自動進貨系統,也是一種大資料的自動化應用。洞察應用由於業務決策過程中有人的參與環節,因此報表的資料規模不能太大,這會帶來一定的資訊量損失。另外,對洞察報表的解讀和決策,實際上需要相當專業的訓練,這一點大家想想財務報表的例子就可以清楚。而自動化應用由於是機器進行決策,資料可以在個體粒度上進行處理,這使得資料能夠發揮更大的效果。因此,我們認為,相對於傳統的洞察應用,自動化應用才是真正發揮大資料優勢的應用形態。由於上述三個特點的存在,傳統面向中等規模交易資料的儲存和計算的IOE架構變得不再合適,必須尋找新的方案。這些需求催生了Google的GFS、MapReduce、BigTable這三駕馬車,也產生了hadoop、spark等開源技術方案。明白了上述的特徵,我們就非常清楚大資料時代的資料科學家與傳統意義上看報表、做最佳化的資料分析師的區別了。我們認為,合格的資料科學家,應該是如下的一類工程師:
資料科學家是指能採用科學的方法論,調動充足的計算能力,將大量人類無法直接處理的資料轉化成有用資訊,以驅動自動化業務決策的專家。
簡單地說,驅動機器做決策而不是自己決策、面向大量行為資料而非少量洞察統計、利用分散式計算平臺,是資料科學家的主要特徵。而資料科學家的養成,也要在意識、能力與技能三個層面全面提高。
<img src="//s3.pstatp.com/wenda/wenda_web/static/style/image/loading_a788ad0.gif" _src="https://pic2.zhimg.com/v2-0c7b78432327291fd62e675f8d2e94a9_b.png" data-rawwidth="1136" data-rawheight="640" width="1136" data-original="https://pic2.zhimg.com/v2-0c7b78432327291fd62e675f8d2e94a9_r.png">資料優先於經驗,計算優先於人工的理念,說來簡單,要真正建立起來並不容易,這並不是讀幾本以“大資料”為題的雞湯著作就可以速成。相對於此,基礎技能的學習反而要簡單地多。從市場能找到的資料來看,最缺失的是金字塔的腰部,即如何熟悉資料行業的基本產品問題和市場鏈條(見下圖中的問題),以及其中有什麼有趣的技術點。與網際網路其他領域一樣,不瞭解產品,就無法真正理解問題,也無法形成感性認識,這才是初入大資料行業者最大的障礙。對此,我們應知乎邀請準備了系列live: 通往大資料達人之路,歡迎有興趣的讀者參與。<img src="//s3.pstatp.com/wenda/wenda_web/static/style/image/loading_a788ad0.gif" _src="https://pic4.zhimg.com/v2-c78ad4d2ebdfde7c999a664d0fbd60ef_b.png" data-rawwidth="1136" data-rawheight="640" width="1136" data-original="https://pic4.zhimg.com/v2-c78ad4d2ebdfde7c999a664d0fbd60ef_r.png">