-
1 # IT人劉俊明
-
2 # 加米穀大資料
企業對資料分析師技能需求可總結如下:
SQL資料庫的基本操作,會基本的資料管理
會用Excel/SQL做基本的資料提取、分析和展示
會用指令碼語言進行資料分析,Python or R
有獲取外部資料的能力加分,如爬蟲或熟悉公開資料集
會基本的資料視覺化技能,能撰寫資料報告
熟悉常用的資料探勘演算法:迴歸分析、決策樹、分類、聚類方法
怎麼學習?
1、資料獲取:公開資料、Python爬蟲
2、資料存取:SQL語言
SQL作為最經典的資料庫工具,為海量資料的儲存與管理提供可能,並且使資料的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的資料
資料庫的增、刪、查、改
資料的分組聚合、如何建立多個表之間的聯絡
3、資料預處理:Python(pandas)
需要掌握的知識點如下:
選擇:資料訪問(標籤、特定值、布林索引等)
空格和異常值處理:清除不必要的空格和極端、異常資料
相關操作:描述性統計、Apply、直方圖等
合併:符合各種邏輯關係的合併操作
分組:資料劃分、分別執行函式、資料重組
Reshaping:快速生成資料透視表
4、機率論及統計學知識
需要掌握的知識點如下:
基本統計量:均值、中位數、眾數、百分位數、極值等
其他描述性統計量:偏度、方差、標準差、顯著性等
其他統計知識:總體和樣本、引數和統計量、ErrorBar
機率分佈與假設檢驗:各種分佈、假設檢驗流程
其他機率論知識:條件機率、貝葉斯等
5、Python 資料分析
需要掌握的知識點如下:
迴歸分析:線性迴歸、邏輯迴歸
基本的分類演算法:決策樹、隨機森林……
基本的聚類演算法:k-means……
特徵工程基礎:如何用特徵選擇最佳化模型
調參方法:如何調節引數最佳化模型
Python 資料分析包:scipy、numpy、scikit-learn等
6、系統實戰與資料思維
相關:入門資料分析的一些建議
https://www.toutiao.com/i6626190883320496644/
-
3 # 深圳王晟磊
沒有行業背景的純資料分析師,目前非常困難。
因為懂工藝懂分析的不懂軟體不懂數學,懂軟體會數學的沒有行業背景,雞和鴨打講。
所以需要把大資料分析工具極簡化,讓懂工藝的人自己定義分析程式。
回覆列表
隨著大資料相關技術逐漸落地,資料分析作為大資料價值化的重要手段之一必然會受到越來越多的關注,市場上對於資料分析師的需求也會進一步增加。所以,目前學習資料分析的相關知識從而成為資料分析師是個不錯的選擇。
資料分析的主要手段有兩種,一種是基於統計學的分析方式,另一種是基於機器學習的分析方式,不同的方式需要採用的技術手段是不同的,自然也需要掌握不同的知識結構。當然,資料分析的基礎知識還是要具備的,就是數學基礎和統計學基礎。由於資料分析分為應用級分析和研發級分析,所以即使數學基礎比較薄弱,在藉助分析工具的情況下,也是可以進行資料分析工作的(可以應付大部分生產環境下的資料分析任務),所以並不需要過多的擔心。
對於計算機基礎知識比較薄弱的人來說,要想快速的成為資料分析師,可以從應用級分析開始,簡單的說就是透過各種資料分析工具來完成資料分析任務。由於統計學分析方式已經有了較為系統的知識體系,所以基於統計學方式的資料分析工具也非常豐富,對於初學者來說,可以從Excel開始學起,Excel能夠應付不少基本的資料分析應用。下一步需要學習資料庫的相關知識,掌握SQL語言的應用,進而就可以透過各種BI工具進行資料分析了,這部分的資料分析任務相對會更加專業一些,不少BI工具能夠給出非常複雜的資料分析途徑。
對於具備一定計算機基礎的人來說,可以透過機器學習的方式來完成資料分析任務。機器學習的資料分析過程分為資料整理、演算法設計、演算法實現、演算法訓練、演算法驗證和演算法應用,簡單的說機器學習的核心在於演算法設計和演算法實現,演算法設計需要具備紮實的數學基礎,而演算法實現則需要具備程式語言知識,目前Python語言在資料分析領域有廣泛的應用,而且Python語言簡單易學,對於初選擇來說是個不錯的選擇。
最後,要想成為資料分析師,往往需要具備一定的行業背景,目前場景資料分析是比較常見的。