資料分析這算是一個比較大的一個框架,單從字面意思來講就是從資料中提取有用的規律或背後的邏輯。
工作中資料分析的職能主要分為以下6個步驟:
資料收集
資料清洗
資料儲存
指標計算
資料統計分析與建模
資料視覺化
第一步資料收集:在前期我們資料尚未形成特定的體系的時候亦或者是我們的業務正在進行的時候,需要我們透過各種各樣的途徑去獲取資料。資料收集的方法多種多樣,其中可以用程式自動收集(資料埋點、網路爬蟲、ERP或CRM系統自動生成等)、手工統計(Excel統計)、第三方網站提取(透過公開資料網站下載,API等)等諸多方法,方法的選擇跟隨業務形態進行。
第二步資料清洗:收集來的資料是髒資料,需要透過資料清洗,也就是取其精華去其糟粕,這樣的資料才是我們能夠正常使用的資料。這一步的操作主要使用的是正則表示式進行資料清洗,收集來的資料各種格式都有,需要轉碼成特定的格式以及編碼。
第三步資料儲存:由於現在的公司資料越來越大,網際網路時代已經從IT轉變為DT的時代,現在每個公司的業務資料都是呈現幾何倍數的增長,那麼在儲存資料的時候肯定不可能還用以前那種用紙筆記錄的時代。現在對於小資料量的公司一般也是用Excel檔案進行資料儲存,許多公司以及採用資料庫產品進行資料儲存,市面也有很多效能很好的資料庫產品,例如Oracle、MySQL、SqlServer,現在對大資料還專門有對應的hive資料倉庫產品。這些產品都很好用,並且部分還是開源產品。就我們公司而言,之前使用的Oracle和MySQL以及SqlServer資料庫,目前因為業務線條的調整,已經將資料從單一的資料庫轉向hive資料倉庫儲存,更方便了技術、業務、分析師等角色對資料的應用提取。
第四步指標計算:在進行指標計算之前,需要資料分析師建立當前部門的KPI指標,對應著業務部門針對不同的業務場景反饋出業務好壞的資料與規則。這一步繁雜而持續,並且可能這項工作會貫穿整個資料分析生涯。什麼是指標?指標就是衡量目標的方法,比如商品管理常用的庫存週轉率、毛利率等,運營常看的路徑轉換,maketing常看的ROI等等,對應的指標反映出不同的業務場景的好壞,隨著業務的變換,企業階段的變換,指標也會一直在跟隨著變換。
第五步資料統計分析與建模:這個環節是整個資料分析流程中最有意思的一個環節,沒有之一。相比於之前的環節,在此環節你將會面臨各種各樣的挑戰。什麼假設檢驗,什麼線性迴歸、什麼特徵工程、什麼貝葉斯等都會遇到,在這裡你將會看到各種資料背後的邏輯以及資料所產生的價值。並且在資料分析的過程中可能會遇到第二步的資料清洗過程,處理缺失值、處理異常值等。
第六步資料視覺化:也就是資料展現,需要將第五步統計分析及建模的結果使用圖的形式體現出來,俗話說字不如表,表不如圖。市面上使用的比較多的資料視覺化產品主要是Tableau、PowerBI、finebi、PPT等幾種。其中前三種主要是呈現互動式表格,也就是儲存於線上的報表,而PPT主要是以報告的形式呈現。
現在的資料分析可按照職能簡單劃分為幾個方向:
商業資料分析師
資料探勘工程師
大資料開發工程師
以上幾種是當前的招聘時長相對比較常見的幾種崗位,各崗位之前各有不同。商業資料分析師主要是以業務為導向,將資料應用到企業的決策中,主要的工具是Python、R、Excel、SPSS、tableau、PowerBI等;資料探勘工程師比較側重技術方向,主要反欺詐、垃圾郵件識別等資料應用,主要的工具是Python、Java、C、C++等;大資料開發工程師主要負責搭建資料平臺,利用hadoop、hive、spark、Python、Java、C、C++等工具開發適合公司資料流的資料平臺。資料分析是一個目前為止比較新興的崗位,因此大多數人都是在不斷的學習改進。
資料分析這算是一個比較大的一個框架,單從字面意思來講就是從資料中提取有用的規律或背後的邏輯。
工作中資料分析的職能主要分為以下6個步驟:
資料收集
資料清洗
資料儲存
指標計算
資料統計分析與建模
資料視覺化
第一步資料收集:在前期我們資料尚未形成特定的體系的時候亦或者是我們的業務正在進行的時候,需要我們透過各種各樣的途徑去獲取資料。資料收集的方法多種多樣,其中可以用程式自動收集(資料埋點、網路爬蟲、ERP或CRM系統自動生成等)、手工統計(Excel統計)、第三方網站提取(透過公開資料網站下載,API等)等諸多方法,方法的選擇跟隨業務形態進行。
第二步資料清洗:收集來的資料是髒資料,需要透過資料清洗,也就是取其精華去其糟粕,這樣的資料才是我們能夠正常使用的資料。這一步的操作主要使用的是正則表示式進行資料清洗,收集來的資料各種格式都有,需要轉碼成特定的格式以及編碼。
第三步資料儲存:由於現在的公司資料越來越大,網際網路時代已經從IT轉變為DT的時代,現在每個公司的業務資料都是呈現幾何倍數的增長,那麼在儲存資料的時候肯定不可能還用以前那種用紙筆記錄的時代。現在對於小資料量的公司一般也是用Excel檔案進行資料儲存,許多公司以及採用資料庫產品進行資料儲存,市面也有很多效能很好的資料庫產品,例如Oracle、MySQL、SqlServer,現在對大資料還專門有對應的hive資料倉庫產品。這些產品都很好用,並且部分還是開源產品。就我們公司而言,之前使用的Oracle和MySQL以及SqlServer資料庫,目前因為業務線條的調整,已經將資料從單一的資料庫轉向hive資料倉庫儲存,更方便了技術、業務、分析師等角色對資料的應用提取。
第四步指標計算:在進行指標計算之前,需要資料分析師建立當前部門的KPI指標,對應著業務部門針對不同的業務場景反饋出業務好壞的資料與規則。這一步繁雜而持續,並且可能這項工作會貫穿整個資料分析生涯。什麼是指標?指標就是衡量目標的方法,比如商品管理常用的庫存週轉率、毛利率等,運營常看的路徑轉換,maketing常看的ROI等等,對應的指標反映出不同的業務場景的好壞,隨著業務的變換,企業階段的變換,指標也會一直在跟隨著變換。
第五步資料統計分析與建模:這個環節是整個資料分析流程中最有意思的一個環節,沒有之一。相比於之前的環節,在此環節你將會面臨各種各樣的挑戰。什麼假設檢驗,什麼線性迴歸、什麼特徵工程、什麼貝葉斯等都會遇到,在這裡你將會看到各種資料背後的邏輯以及資料所產生的價值。並且在資料分析的過程中可能會遇到第二步的資料清洗過程,處理缺失值、處理異常值等。
第六步資料視覺化:也就是資料展現,需要將第五步統計分析及建模的結果使用圖的形式體現出來,俗話說字不如表,表不如圖。市面上使用的比較多的資料視覺化產品主要是Tableau、PowerBI、finebi、PPT等幾種。其中前三種主要是呈現互動式表格,也就是儲存於線上的報表,而PPT主要是以報告的形式呈現。
現在的資料分析可按照職能簡單劃分為幾個方向:
商業資料分析師
資料探勘工程師
大資料開發工程師
以上幾種是當前的招聘時長相對比較常見的幾種崗位,各崗位之前各有不同。商業資料分析師主要是以業務為導向,將資料應用到企業的決策中,主要的工具是Python、R、Excel、SPSS、tableau、PowerBI等;資料探勘工程師比較側重技術方向,主要反欺詐、垃圾郵件識別等資料應用,主要的工具是Python、Java、C、C++等;大資料開發工程師主要負責搭建資料平臺,利用hadoop、hive、spark、Python、Java、C、C++等工具開發適合公司資料流的資料平臺。資料分析是一個目前為止比較新興的崗位,因此大多數人都是在不斷的學習改進。