-
1 # Mr理想呀
-
2 # 通訊觀察家
資料的話在很多網站都能找到,CNNIC、百度指數、艾媒北極星、微信指數這些,資料展示最基本的是透過Excel和PPT展示,有時需要SPSS,PS等軟體,而分析才是大學問。對於資料的引用,分析的方法,資料的視覺化,這些都要面面俱到。推薦你可以參考一些資料機構或諮詢機構的報告。國家統計局,中國信通院,艾媒諮詢,這些都可以看看。
-
3 # 程式碼老妹兒
在中美資料分析行業從業十餘年,從傳統行業到現在工作的一線網際網路行業,與很多優秀的資料分析師一起工作過,也培訓和麵試了很多資料分析師,在這裡結合自己的經驗談一點看法。首先,華人是很適合做資料分析或者資料科學的的。原因很簡單:華人數學,統計以及程式設計的底子比較好。外華人這方面的基礎相對比較薄弱,所以在美國大公司做資料的華人比例一般比印度人還要高。
回到主題,那麼如何快速成為資料分析師呢?首先要區分”優秀的資料分析師”和”資料分析師” 。 成長為一個優秀的資料分析師,不僅需要堅實的技術基礎,更需要長時間的行業積累,不是可以速成的。但是如果只是為找到一份體面的資料分析工作,拿著不錯的薪水並且在公司生存,速成是完全可以做到的。很多文科轉碼農的中國留學生都可以報個培訓速成班,最後去矽谷做個程式設計師,資料分析師是一樣的道理。想要速成需要從以下幾個重點入手:
資料庫如果去面試資料分析師崗位,95%以上的機會你會被問到資料庫的問題。很多大公司一般都會在面試的時候給一個情景,需要當場用SQL寫一段query。舉例說明一下,JOIN 是SQL最重要的幾個操作之一, 那麼弄清楚 Left Join, Inner Join, Full Join 的區別就非常重要, 也是面試考察的重點。資料庫的知識如何速成呢?這裡給大家推薦一個網站,W3School:
https://www.w3schools.com/sql/www.w3schools.com這是國外一個免費網站。上面不僅可以學習SQL的各種語句和命令,也可以自己寫SQL query去實時執行。網站裡有不少例子和語法的詳細說明,非常通俗易懂。學完基本知識以後, 就是時候去刷題網站 LeetCode 測試一下自己的掌握程度了:
LeetCode Problemsleetcode.com此網站裡SQL題的難度和內容跟公司面試比較接近,有的題可能比較難但是答案基本上都可以在網上搜到。雖然這個網站SQL的題目不是很多,但是好在題目非常有代表性,難度從簡到難基本都覆蓋到了。
學習完以上兩個網站SQL的內容,SQL資料庫的面試就基本可以過關了。這些內容如果你每天都學習好幾個小時的話,那麼兩週後你就會有一個非常不錯的資料庫應試能力了(當然這裡專指SQL類)。
Python and RPython和R是現在主流的資料分析指令碼語言,掌握其中一種就足夠以應付大部分的資料分析工作。典型的應用場景 (尤其是python):
讀和存大量的資料自動化: 比如每天自動執行和更新資料,圖表等。統計的simulation:比如要模擬一萬次試驗來estimate測試資料。機器學習模型:簡單的機器學習模型來預測產品收益或者發現商業機會還有很多就不一一列舉了那麼Python和R怎麼速成呢?給大家推薦以下幾個途徑:
學校裡上課一些免費的網課,如Coursera,Udacity。或者看一些Python,R入門書籍。這裡推薦一門python免費網課:Programming Foundations with Python | Udacity報一些師資強大有針對性的培訓班這種hardcore skill大家需要明白不是看幾篇文章或者逛逛知乎就可以的,需要一步一步去學習。Python和R作為指令碼語言本來就比較簡單,容易上手。所以只要肯每天花兩三個小時的時間,一個月後你的Python或者R就可以達到一個合格的初級資料分析師的水平。我的很多同事進入公司的時候都不太會用Python,R分析資料,但是他們透過一些網上資源或者培訓班就可以很快運用Python、R。
資料視覺化資料視覺化是資料分析師很重要的一項工作。一個簡單明瞭的圖片勝過一百句話。資料視覺化如何速成呢?這個其實很難說。最重要的視覺化工具就是我們耳熟能詳的EXCEL. 如果能夠用Excel做出清晰易懂的圖,就算是起碼合格了(別小看Excel作圖,要做得好是需要練習的)。很多公司現在也會用Tableau製圖。這裡推薦大家一個Tableau官網的製圖教程,非常簡單明瞭:
Tableau Training & Tutorialswww.tableau.com數理統計數理統計我想大家只需要在學校或者網上學習一些統計的基本知識就可以了。具體的東西到了公司再學也可以。這裡重點強調一下A/B test。原因是很多面試官會考到這裡。關於A/B test, 推薦大家一門由谷歌資料科學家免費提供的網課,我自己也看過覺得還是比較有收穫的。網址如下:
https://www.udacity.com/course/ab-testing--ud257www.udacity.com專案實戰我想強調的最後一個重要面試考點就是case study,也就是專案實戰。 很多面試官都會讓你講述你自己做過的資料分析的專案,然後從你的描述中問你細節問題,從業務到技術都會考到。希望大家學習完基礎知識後去多做一些好的資料分析的專案,如果有工業界的一些真實改編案例那是最好的。這裡推薦大家一個網站,裡面有很多資料分析和建模的專案:
Your Home for Data Sciencewww.kaggle.com結語以上談了我對資料分析師成長的經驗。有一個我未談及的重要方面, 那就是商業感知能力的培養或者分析師思維培養。這些都是在工作中去訓練和積累的,無法透過培訓獲得。 面試官也不會期待一個剛畢業學生或者剛踏入資料分析行業的求職者具有工作好幾年的分析師的思維能力。只要大家重點夯實自己的基礎,多做一些專案實戰,就可以最終找到一份不錯的資料分析師的工作。這是一個充滿挑戰,能夠不停學到新東西,同時也能為你的職業生涯打下良好基礎的行業。希望大家都能從我的分享得到益處,早日加入大資料分析師的行列。
-
4 # 加米穀大資料
資料分析師是做什麼的:
1、支援各種常規或臨時資料分析需求;
2、提供各類業務相關的分析及建議;
3、透過建模深入挖掘使用者或產品方面的有價值的資訊;
4、和各部門溝通協調需求並提出各種新的資料分析專案或方案;
5、持續地改進資料採集、處理、分析、報告等各個流程上的工作。
資料分析師的基本工作流程:
1.定義問題
確定需要的問題,以及想得出的結論。需要考慮的選項有很多,要根據所在業務去判斷。常見的有:變化趨勢、使用者畫像、影響因素、歷史資料等。
2.資料獲取
資料獲取的方式有很多種:
一是直接從企業資料庫調取,需要SQL技能去完成資料提取等的資料庫管理工作。
二是獲取公開資料,政府、企業、統計局等機構有。
三是透過Python編寫網頁爬蟲。
3.資料預處理
對殘缺、重複等異常資料進行清洗。
4.資料分析與建模
這個部分需要了解基本的統計分析方法、資料探勘演算法,瞭解不同統計方法適用的場景和適合的問題。
5.資料視覺化和分析報告撰寫
學習一款視覺化工具,將資料透過視覺化最直觀的展現出來。
資料分析入門需要掌握的技能有:
1. SQL(資料庫):
怎麼從資料庫取資料?怎麼取到自己想要的特定的資料?等這些問題就是你首要考慮的問題,而這些問題都是透過SQL解決的,所以SQL是資料分析的最基礎的技能。
2. excel
分析師更多的時候是在分析資料,分析資料時需要把資料放到一個檔案裡,就是excel。
熟練excel常用公式,學會做資料透視表,什麼資料畫什麼圖等。
3.Python或者R的基礎:
必備項,也是加分項,在資料探勘方向是必備項,語言相比較工具更加靈活也更加實用。
4.學習一個視覺化工具:資料視覺化工具推薦:http://www.dtinone.com/article/38
如果你想往更高層次發展,上面的東西頂多只佔20%,剩下的80%則是業務理解能力,目標拆解能力,根據資料需求更多新技能的學習能力。
-
5 # 曹一海
廣泛被應用的資料分析:谷歌的資料分析可以預測一個地區即將爆發的流感,從而進行針對性的預防;淘寶可以根據你瀏覽和消費的資料進行分析,為你精準推薦商品;口碑極好的網易雲音樂,透過其相似性演算法,為不同的人量身定製每日歌單……
資料正在變得越來越常見,小到我們每個人的社交網路、消費資訊、運動軌跡……,大到企業的銷售、運營資料,產品的生產資料,交通網路資料……
如何從海量資料中獲得別人看不見的知識,如何利用資料來武裝營銷工作、最佳化產品、使用者調研、支撐決策,資料分析可以將資料的價值最大化。
那麼,小白如何快速獲得資料分析的能力呢?知乎上有很多書單,你可能也聽過很多學習方法,但嘗試過就知道這些跟高效沒什麼關係。
01 資料分析師應該具備哪些技能
要明確學習的路徑,最有效的方式就是看具體的職業、工作崗位對於技能的具體需求。
其實企業對資料分析師的基礎技能需求差別不大,可總結如下:
SQL資料庫的基本操作,會基本的資料管理
會用Excel/SQL做基本的資料分析和展示
會用指令碼語言進行資料分析,Python or R
有獲取外部資料的能力,如爬蟲
會基本的資料視覺化技能,能撰寫資料報告
熟悉常用的資料探勘演算法:迴歸分析、決策樹、隨機森林、支援向量機等
02 尋找最合適的學習路徑
最高效的學習路徑是什麼樣的?
你一定要清楚的是,你想要達到的目標是什麼?如果你想利用資料分析的方法來支撐工作決策,那麼你可能需要知道資料分析的流程是什麼,透過資料分析的方法能獲得哪些資訊,這些資訊可以用來支撐什麼工作。
然後你需要知道要達到這樣的目的,需要哪些必備的技能,哪些是不需要學習的。其實在這個過程中你對知識的框架就有了大概的瞭解,並知道如何去避免無效的資訊。
更重要的是,你需要了解,完成一個數據分析專案,基本的流程是什麼。這樣你才知道學習的知識,在具體的工作中是如何應用,並能夠在學習之後進行針對性的訓練,做到有的放矢。
03 資料分析的工作流程
1. 定義問題
在做具體的分析前,你需要確定要分析的問題是什麼?你想得出哪些結論?
比如某地區空氣質量變化的趨勢是什麼?
影響公司銷售額增長的關鍵因素是什麼?
生產環節中影響產能和質量的核心指標是什麼?
如何對分析使用者畫像並進行精準營銷?
如何基於歷史資料預測未來某個階段使用者行為?
問題的定義需要你去了解業務的核心知識,並從中獲得一些可以幫助你進行分析的經驗。
2. 資料獲取
有了具體的問題,你就需要獲取相關的資料了。比如你要探究北京空氣質量變化的趨勢,你可能就需要收集北京最近幾年的空氣質量資料、天氣資料,甚至工廠資料、氣體排放資料、重要日程資料等等。
如果你要分析影響公司銷售的關鍵因素,你就需要呼叫公司的歷史銷售資料、使用者畫像資料、廣告投放資料等。
資料的獲取方式有多種。
一是公司的銷售、使用者資料。可以直接從企業資料庫調取,所以你需要SQL技能去完成資料提取等的資料庫管理工作。比如你可以根據你的需要提取2017年所有的銷售資料、提取今年銷量最大的50件商品的資料、提取上海、廣東地區使用者的消費資料……,SQL可以透過簡單的命令幫你完成這些工作。
第二種是獲取外部的公開資料集,一些科研機構、企業、政府會開放一些資料,你需要到特定的網站去下載這些公開資料。
第三種是編寫網頁爬蟲。比如你可以透過爬蟲獲取招聘網站某一職位的招聘資訊,爬取租房網站上某城市的租房資訊,獲取知乎點贊排行等。基於網際網路爬取的資料,你可以對某個行業、某種人群進行分析,這算是非常靠譜的市場調研、競品分析的方式了。
3. 資料預處理
原始的資料可能會有很多問題,比如殘缺的資料、重複的資料、無效的資料等等。把這些影響分析的資料處理好,才能獲得更加精確地分析結果。
比如空氣質量的資料,其中有很多天的資料由於裝置的原因是沒有監測到的,有一些資料是記錄重複的,還有一些資料是裝置故障時監測無效的。
那麼我們需要用相應的方法去處理,比如殘缺資料,我們是直接去掉這條資料,還是用臨近的值去補全,這些都是需要考慮的問題。
當然在這裡我們還可能會有資料的分組、基本描述統計量的計算、基本統計圖形的繪製、資料取值的轉換、資料的正態化處理等,能夠幫助我們掌握資料的分佈特徵,是進一步深入分析和建模的基礎。
4. 資料分析與建模
在這個部分需要了解基本的資料分析方法、資料探勘演算法,瞭解不同方法適用的場景和適合的問題。分析時應切忌濫用和誤用統計分析方法。濫用和誤用統計分析方法主要是由於對方法能解決哪類問題、方法適用的前提、方法對資料的要求不清等原因造成的。
比如你發現在一定條件下,銷量和價格是正比關係,那麼你可以據此建立一個線性迴歸模型,你發現價格和廣告是非線性關係,你可以先建立一個邏輯迴歸模型來進行分析。
當然你也可以瞭解一些資料探勘的演算法、特徵提取的方法來最佳化自己的模型,獲得更好的結果。
5. 資料視覺化及資料報告撰寫
分析結果最直接的是統計量的描述和統計量的展示。
比如我們透過資料的分佈發現資料分析師工資最高的5個城市,目前各種程式語言的流行度排行榜,近幾年北京空氣質量的變化趨勢,商品消費者的地區分佈……這些都是我們透過簡單資料分析與視覺化就可以展現出的結果。
另外一些則需要深入探究內部的關係,比如影響產品質量最關鍵的幾個指標,你需要對不同指標與產品質量進行相關性分析之後才能得出正確結論。又比如你需要預測未來某個時間段的產品銷量,則需要你對歷史資料進行建模和分析,才能對未來的情況有更精準的預測。
資料分析報告不僅是分析結果的直接呈現,還是對相關情況的一個全面的認識。所以你需要一個講故事的邏輯,如何從一個宏觀的問題,深入、細化到問題內部的方方面面,得出令人信服的結果。
你看,其實資料分析就這幾個步驟,實現起來也感覺並不難。最好的學習路徑是什麼,就是按照解決問題的流程去學習。你瞭解這個流程,然後循序漸進深入每個部分,你會覺得這是一件特別容易上手的事情。
-
6 # 加米穀大資料
一、資料分析師的方向
先選擇了正確的方向,再朝著這個方向努力是學習一個新領域的正確姿勢,因此開始正式學習前,我首先查閱了大量資料,瞭解資料分析分為哪些方向,並明確自己想往哪個方向走。
1.資料分析的方向分類
資料分析可分為兩類:一種偏向產品和運營,更加註重業務,主要工作包括日常業務的異常監控、客戶和市場研究、參與產品開發、建立資料模型提升運營效率等;另一種則更注重資料探勘技術,門檻較高,需要紮實的演算法能力和程式碼能力。(總結了@路人甲大神的說法)
2.資料分析的行業分類
1)網際網路行業是資料分析應用最廣的行業,是資料分析師理想的成長平臺。
2)其次是諮詢公司。相對來說,資料分析師在諮詢公司成長的速度更快,專業也會更全面。3)再次是
3)金融行業,比如銀行和證券等行業,該行業對資料分析的依賴需求,越來越大。4)最後是
4)電信行業,(移動、聯通和電信),它們擁有海量的資料,在嚴峻的競爭下,也越來越重視資料分析,但進入這些公司的門檻比較高。
3.確定自己的方向
由上可知資料分析大致分為兩類:偏重業務和偏技術路線的,明顯偏技術路線是很難速成的,鑑於我今年9月份要開始校招找工作,且自己對產品向很感興趣,因而我選擇了更偏向業務的資料分析。此外,自己最感興趣的行業是網際網路。
全文:blog.sina.com.cn/s/blog_17c01ad2f0102xsdg.html
-
7 # 我是資料控
一)資料思維的訓練
思維支配行動,你的一切行動都來自於你想法的支配,因此個人覺得資料分析最重要的是思維,這裡介紹一下我常用的兩種思維:
結構化思維:訓練模型--金字塔結構模型
參考這個模型刻意訓練使我獲益良多
2.業務思維:
本身參與到業務中,從業務角度來思考,能跟好的抓住問題所在。
二)構建全面的資料分析體系
用資料分析的框架體系指導我們對資料分析工具的學習,對於工具的掌握效果往往更顯著。(這是我的切身體會)
三)尋找一個或一群同行的夥伴
因為資料分析知識體系的學習以及各類工具的學習是一件枯燥的事情,我開始是一個人在學習,學習初期熱情高漲,所以特別認真,但一段時間後,我就開始三天打魚兩天曬網的,後來是我的小夥伴也開始學習我們相互監督,一起學習不同的知識點,然後把自己學習的知識點講給對方聽,在進行討論,這樣形成了輸入(學習)、輸出(講解)、知識昇華(討論)的良性迴圈。
四)確定目標
找到你學習資料分析的具體目標,透過目標去指導知識的學習,學習之後立馬實踐,然後不斷迭代,這樣知識的掌握更為迅速也更牢固。我的excel沒有透過系統的訓練,完全是在工作中透過具體的應用場景需求學習積累的,知識點特別牢靠,即便長時間不用excel,遇到相同的場景我也能快速記起基本操作,因此其他工具的學習也套用了此方法。
-
8 # CDA資料分析師
誠然,任何一門技術都不可能一蹴而就,更不可能一夜成才。這世上,沒有什麼牛逼的事情是能夠速成的,越是專業、越是基層、收益週期越長的技能越是這樣,資料分析師也不例外。但這並不代表,我們不能透過一些有效的方法,把學習的過程變得高效而有趣,讓自己的資料分析師學成之旅起到事半功倍的作用。倘若真的想一口吃成一個胖子,到時去面試去工作,你會被自己的好不紮實的專業基底傷害得遍體鱗傷。
學習資料分析師之前,你必須清楚自己想要達成什麼目標。也就是說,你想透過這門技術來解決哪些問題或實現什麼計劃。有了這個目標,你才能清晰地開展自己的學習規劃,並且明確它的知識體系。只有明確的目標導向,學習必備也是最有用的那部分,才能避免無效資訊降低學習效率。
明確知識框架和學習路徑
資料分析這件事,如果你要成為資料分析師,那麼你可以去招聘網站看看,對應的職位的需求是什麼,一般來說你就會對應該掌握的知識架構有初步的瞭解。你可以去看看資料分析師職位,企業對技能需求可總結如下:
SQL資料庫的基本操作,會基本的資料管理;
會用Excel/SQL做基本的資料提取、分析和展示;
會用指令碼語言進行資料分析,Python or R;
有獲取外部資料的能力加分,如爬蟲或熟悉公開資料集;
會基本的資料視覺化技能,能撰寫資料報告;
熟悉常用的資料探勘演算法:迴歸分析、決策樹、分類、聚類方法;
高效的學習路徑是什麼?就是資料分析的流程。一般大致可以按“資料獲取-資料儲存與提取-資料預處理-資料建模與分析-資料視覺化”這樣的步驟來實現一個數據分析師的學成之旅。按這樣的順序循序漸進,你會知道每個部分需要完成的目標是什麼,需要學習哪些知識點,哪些知識是暫時不必要的。然後每學習一個部分,你就能夠有一些實際的成果輸出,有正向的反饋和成就感,你才會願意花更多的時間投入進去。以解決問題為目標,效率自然不會低。
按照上面的流程,我們分需要獲取外部資料和不需要獲取外部資料兩類分析師,總結學習路徑如下:
1.需要獲取外部資料分析師:
python基礎知識
python爬蟲
SQL語言
python科學計算包:pandas、numpy、scipy、scikit-learn
統計學基礎
迴歸分析方法
資料探勘基本演算法:分類、聚類
模型最佳化:特徵提取
資料視覺化:seaborn、matplotlib
2.不需要獲取外部資料分析師:
SQL語言
python基礎知識
python科學計算包:pandas、numpy、scipy、scikit-learn
統計學基礎
迴歸分析方法
資料探勘基本演算法:分類、聚類
模型最佳化:特徵提取
資料視覺化:seaborn、matplotlib
接下來我們分別從每一個部分講講具體應該學什麼、怎麼學。
資料獲取:公開資料、Python爬蟲
如果接觸的只是企業資料庫裡的資料,不需要要獲取外部資料的,這個部分可以忽略。
外部資料的獲取方式主要有以下兩種。
第一種是獲取外部的公開資料集,一些科研機構、企業、政府會開放一些資料,你需要到特定的網站去下載這些資料。這些資料集通常比較完善、質量相對較高。
另一種獲取外部資料費的方式就是爬蟲。
在爬蟲之前你需要先了解一些 Python 的基礎知識:元素(列表、字典、元組等)、變數、迴圈、函式(連結的菜鳥教程非常好)……以及如何用成熟的 Python 庫(urllib、BeautifulSoup、requests、scrapy)實現網頁爬蟲。如果是初學,建議從 urllib 和 BeautifulSoup 開始。(PS:後續的資料分析也需要 Python 的知識,以後遇到的問題也可以在這個教程檢視)
網上的爬蟲教程不要太多,爬蟲上手推薦豆瓣的網頁爬取,一方面是網頁結構比較簡單,二是豆瓣對爬蟲相對比較友好。
掌握基礎的爬蟲之後,你還需要一些高階技巧,比如正則表示式、模擬使用者登入、使用代理、設定爬取頻率、使用cookie資訊等等,來應對不同網站的反爬蟲限制。
除此之外,常用的的電商網站、問答網站、點評網站、二手交易網站、婚戀網站、招聘網站的資料,都是很好的練手方式。這些網站可以獲得很有分析意義的資料,最關鍵的是,有很多成熟的程式碼,可以參考。
資料存取:SQL語言
你可能有一個疑惑,為什麼沒有講到Excel。在應對萬以內的資料的時候,Excel對於一般的分析沒有問題,一旦資料量大,就會力不從心,資料庫就能夠很好地解決這個問題。而且大多數的企業,都會以SQL的形式來儲存資料,如果你是一個分析師,也需要懂得SQL的操作,能夠查詢、提取資料。
SQL作為最經典的資料庫工具,為海量資料的儲存與管理提供可能,並且使資料的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的資料:企業資料庫裡的資料一定是大而繁複的,你需要提取你需要的那一部分。比如你可以根據你的需要提取2018年所有的銷售資料、提取今年銷量最大的50件商品的資料、提取上海、廣東地區使用者的消費資料……,SQL可以透過簡單的命令幫你完成這些工作。
資料庫的增、刪、查、改:這些是資料庫最基本的操作,但只要用簡單的命令就能夠實現,所以你只需要記住命令就好。
資料的分組聚合、如何建立多個表之間的聯絡:這個部分是SQL的進階操作,多個表之間的關聯,在你處理多維度、多個數據集的時候非常有用,這也讓你可以去處理更復雜的資料。
資料預處理:Python(pandas)
很多時候我們拿到的資料是不乾淨的,資料的重複、缺失、異常值等等,這時候就需要進行資料的清洗,把這些影響分析的資料處理好,才能獲得更加精確地分析結果。
那麼我們需要用相應的方法去處理,比如殘缺資料,我們是直接去掉這條資料,還是用臨近的值去補全,這些都是需要考慮的問題。
對於資料預處理,學會 pandas 的用法,應對一般的資料清洗就完全沒問題了。需要掌握的知識點如下:
選擇:資料訪問(標籤、特定值、布林索引等)
空格和異常值處理:清楚不必要的空格和極端、異常資料
相關操作:描述性統計、Apply、直方圖等
合併:符合各種邏輯關係的合併操作
分組:資料劃分、分別執行函式、資料重組
Reshaping:快速生成資料透視表
機率論及統計學知識
資料整體分佈是怎樣的?什麼是總體和樣本?中位數、眾數、均值、方差等基本的統計量如何應用?如果有時間維度的話隨著時間的變化是怎樣的?如何在不同的場景中做假設檢驗?資料分析方法大多源於統計學的概念,所以統計學的知識也是必不可少的。需要掌握的知識點如下:
基本統計量:均值、中位數、眾數、百分位數、極值等
其他描述性統計量:偏度、方差、標準差、顯著性等
其他統計知識:總體和樣本、引數和統計量、ErrorBar
機率分佈與假設檢驗:各種分佈、假設檢驗流程
其他機率論知識:條件機率、貝葉斯等
有了統計學的基本知識,你就可以用這些統計量做基本的分析了。透過視覺化的方式來描述資料的指標,其實可以得出很多結論了,比如排名前100的是哪些,平均水平是怎樣的,近幾年的變化趨勢如何……
你可以使用python的包 Seaborn(python包)在做這些視覺化的分析,你會輕鬆地畫出各種視覺化圖形,並得出具有指導意義的結果。瞭解假設檢驗之後,可以對樣本指標與假設的總體指標之間是否存在差別作出判斷,已驗證結果是否在可接受的範圍。
python資料分析
如果你有一些瞭解的話,就知道目前市面上其實有很多 Python 資料分析的書籍,但每一本都很厚,學習阻力非常大。但其實真正最有用的那部分資訊,只是這些書裡很少的一部分。比如用 Python 實現不同案例的假設檢驗,其實你就可以對資料進行很好的驗證。
比如掌握迴歸分析的方法,透過線性迴歸和邏輯迴歸,其實你就可以對大多數的資料進行迴歸分析,並得出相對精確地結論。比如DataCastle的訓練競賽“房價預測”和“職位預測”,都可以透過迴歸分析實現。這部分需要掌握的知識點如下:
迴歸分析:線性迴歸、邏輯迴歸
基本的分類演算法:決策樹、隨機森林……
基本的聚類演算法:k-means……
特徵工程基礎:如何用特徵選擇最佳化模型
調參方法:如何調節引數最佳化模型
Python 資料分析包:scipy、numpy、scikit-learn等
在資料分析的這個階段,重點了解迴歸分析的方法,大多數的問題可以得以解決,利用描述性的統計分析和迴歸分析,你完全可以得到一個不錯的分析結論。
當然,隨著你實踐量的增多,可能會遇到一些複雜的問題,你就可能需要去了解一些更高階的演算法:分類、聚類,然後你會知道面對不同型別的問題的時候更適合用哪種演算法模型,對於模型的最佳化,你需要去學習如何透過特徵提取、引數調節來提升預測的精度。這就有點資料探勘和機器學習的味道了,其實一個好的資料分析師,應該算是一個初級的資料探勘工程師了。
系統實戰
這個時候,你就已經具備了資料分析的基本能力了。但是還要根據不同的案例、不同的業務場景進行實戰。能夠獨立完成分析任務,那麼你就已經打敗市面上大部分的資料分析師了。
如何進行實戰呢?
上面提到的公開資料集,可以找一些自己感興趣的方向的資料,嘗試從不同的角度來分析,看看能夠得到哪些有價值的結論。
另一個角度是,你可以從生活、工作中去發現一些可用於分析的問題,比如上面說到的電商、招聘、社交等平臺等方向都有著很多可以挖掘的問題。
開始的時候,你可能考慮的問題不是很周全,但隨著你經驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度,比如top榜單、平均水平、區域分佈、年齡分佈、相關性分析、未來趨勢預測等等。隨著經驗的增加,你會有一些自己對於資料的感覺,這就是我們通常說的資料思維了。
你也可以看看行業的分析報告,看看優秀的分析師看待問題的角度和分析問題的維度,其實這並不是一件困難的事情。
在掌握了初級的分析方法之後,也可以嘗試做一些資料分析的競賽,比如 DataCastle 為資料分析師專門定製的三個競賽,提交答案即可獲取評分和排名:
員工離職預測訓練賽
美國King County房價預測訓練賽
北京PM2.5濃度分析訓練賽
種一棵樹最好的時間是十年前,其次是現在。現在就去,找一個數據集開始吧!!
-
9 # CDA資料分析師
誠然,任何一門技術都不可能一蹴而就,更不可能一夜成才。這世上,沒有什麼牛逼的事情是能夠速成的,越是專業、越是基層、收益週期越長的技能越是這樣,資料分析師也不例外。但這並不代表,我們不能透過一些有效的方法,把學習的過程變得高效而有趣,讓自己的資料分析師學成之旅起到事半功倍的作用。倘若真的想一口吃成一個胖子,到時去面試去工作,你會被自己的好不紮實的專業基底傷害得遍體鱗傷。
學習資料分析師之前,你必須清楚自己想要達成什麼目標。也就是說,你想透過這門技術來解決哪些問題或實現什麼計劃。有了這個目標,你才能清晰地開展自己的學習規劃,並且明確它的知識體系。只有明確的目標導向,學習必備也是最有用的那部分,才能避免無效資訊降低學習效率。
明確知識框架和學習路徑
資料分析這件事,如果你要成為資料分析師,那麼你可以去招聘網站看看,對應的職位的需求是什麼,一般來說你就會對應該掌握的知識架構有初步的瞭解。你可以去看看資料分析師職位,企業對技能需求可總結如下:
SQL資料庫的基本操作,會基本的資料管理;
會用Excel/SQL做基本的資料提取、分析和展示;
會用指令碼語言進行資料分析,Python or R;
有獲取外部資料的能力加分,如爬蟲或熟悉公開資料集;
會基本的資料視覺化技能,能撰寫資料報告;
熟悉常用的資料探勘演算法:迴歸分析、決策樹、分類、聚類方法;
高效的學習路徑是什麼?就是資料分析的流程。一般大致可以按“資料獲取-資料儲存與提取-資料預處理-資料建模與分析-資料視覺化”這樣的步驟來實現一個數據分析師的學成之旅。按這樣的順序循序漸進,你會知道每個部分需要完成的目標是什麼,需要學習哪些知識點,哪些知識是暫時不必要的。然後每學習一個部分,你就能夠有一些實際的成果輸出,有正向的反饋和成就感,你才會願意花更多的時間投入進去。以解決問題為目標,效率自然不會低。
按照上面的流程,我們分需要獲取外部資料和不需要獲取外部資料兩類分析師,總結學習路徑如下:
1.需要獲取外部資料分析師:
python基礎知識
python爬蟲
SQL語言
python科學計算包:pandas、numpy、scipy、scikit-learn
統計學基礎
迴歸分析方法
資料探勘基本演算法:分類、聚類
模型最佳化:特徵提取
資料視覺化:seaborn、matplotlib
2.不需要獲取外部資料分析師:
SQL語言
python基礎知識
python科學計算包:pandas、numpy、scipy、scikit-learn
統計學基礎
迴歸分析方法
資料探勘基本演算法:分類、聚類
模型最佳化:特徵提取
資料視覺化:seaborn、matplotlib
接下來我們分別從每一個部分講講具體應該學什麼、怎麼學。
資料獲取:公開資料、Python爬蟲
如果接觸的只是企業資料庫裡的資料,不需要要獲取外部資料的,這個部分可以忽略。
外部資料的獲取方式主要有以下兩種。
第一種是獲取外部的公開資料集,一些科研機構、企業、政府會開放一些資料,你需要到特定的網站去下載這些資料。這些資料集通常比較完善、質量相對較高。
另一種獲取外部資料費的方式就是爬蟲。
在爬蟲之前你需要先了解一些 Python 的基礎知識:元素(列表、字典、元組等)、變數、迴圈、函式(連結的菜鳥教程非常好)……以及如何用成熟的 Python 庫(urllib、BeautifulSoup、requests、scrapy)實現網頁爬蟲。如果是初學,建議從 urllib 和 BeautifulSoup 開始。(PS:後續的資料分析也需要 Python 的知識,以後遇到的問題也可以在這個教程檢視)
網上的爬蟲教程不要太多,爬蟲上手推薦豆瓣的網頁爬取,一方面是網頁結構比較簡單,二是豆瓣對爬蟲相對比較友好。
掌握基礎的爬蟲之後,你還需要一些高階技巧,比如正則表示式、模擬使用者登入、使用代理、設定爬取頻率、使用cookie資訊等等,來應對不同網站的反爬蟲限制。
除此之外,常用的的電商網站、問答網站、點評網站、二手交易網站、婚戀網站、招聘網站的資料,都是很好的練手方式。這些網站可以獲得很有分析意義的資料,最關鍵的是,有很多成熟的程式碼,可以參考。
資料存取:SQL語言
你可能有一個疑惑,為什麼沒有講到Excel。在應對萬以內的資料的時候,Excel對於一般的分析沒有問題,一旦資料量大,就會力不從心,資料庫就能夠很好地解決這個問題。而且大多數的企業,都會以SQL的形式來儲存資料,如果你是一個分析師,也需要懂得SQL的操作,能夠查詢、提取資料。
SQL作為最經典的資料庫工具,為海量資料的儲存與管理提供可能,並且使資料的提取的效率大大提升。你需要掌握以下技能:
提取特定情況下的資料:企業資料庫裡的資料一定是大而繁複的,你需要提取你需要的那一部分。比如你可以根據你的需要提取2018年所有的銷售資料、提取今年銷量最大的50件商品的資料、提取上海、廣東地區使用者的消費資料……,SQL可以透過簡單的命令幫你完成這些工作。
資料庫的增、刪、查、改:這些是資料庫最基本的操作,但只要用簡單的命令就能夠實現,所以你只需要記住命令就好。
資料的分組聚合、如何建立多個表之間的聯絡:這個部分是SQL的進階操作,多個表之間的關聯,在你處理多維度、多個數據集的時候非常有用,這也讓你可以去處理更復雜的資料。
資料預處理:Python(pandas)
很多時候我們拿到的資料是不乾淨的,資料的重複、缺失、異常值等等,這時候就需要進行資料的清洗,把這些影響分析的資料處理好,才能獲得更加精確地分析結果。
那麼我們需要用相應的方法去處理,比如殘缺資料,我們是直接去掉這條資料,還是用臨近的值去補全,這些都是需要考慮的問題。
對於資料預處理,學會 pandas 的用法,應對一般的資料清洗就完全沒問題了。需要掌握的知識點如下:
選擇:資料訪問(標籤、特定值、布林索引等)
空格和異常值處理:清楚不必要的空格和極端、異常資料
相關操作:描述性統計、Apply、直方圖等
合併:符合各種邏輯關係的合併操作
分組:資料劃分、分別執行函式、資料重組
Reshaping:快速生成資料透視表
機率論及統計學知識
資料整體分佈是怎樣的?什麼是總體和樣本?中位數、眾數、均值、方差等基本的統計量如何應用?如果有時間維度的話隨著時間的變化是怎樣的?如何在不同的場景中做假設檢驗?資料分析方法大多源於統計學的概念,所以統計學的知識也是必不可少的。需要掌握的知識點如下:
基本統計量:均值、中位數、眾數、百分位數、極值等
其他描述性統計量:偏度、方差、標準差、顯著性等
其他統計知識:總體和樣本、引數和統計量、ErrorBar
機率分佈與假設檢驗:各種分佈、假設檢驗流程
其他機率論知識:條件機率、貝葉斯等
有了統計學的基本知識,你就可以用這些統計量做基本的分析了。透過視覺化的方式來描述資料的指標,其實可以得出很多結論了,比如排名前100的是哪些,平均水平是怎樣的,近幾年的變化趨勢如何……
你可以使用python的包 Seaborn(python包)在做這些視覺化的分析,你會輕鬆地畫出各種視覺化圖形,並得出具有指導意義的結果。瞭解假設檢驗之後,可以對樣本指標與假設的總體指標之間是否存在差別作出判斷,已驗證結果是否在可接受的範圍。
python資料分析
如果你有一些瞭解的話,就知道目前市面上其實有很多 Python 資料分析的書籍,但每一本都很厚,學習阻力非常大。但其實真正最有用的那部分資訊,只是這些書裡很少的一部分。比如用 Python 實現不同案例的假設檢驗,其實你就可以對資料進行很好的驗證。
比如掌握迴歸分析的方法,透過線性迴歸和邏輯迴歸,其實你就可以對大多數的資料進行迴歸分析,並得出相對精確地結論。比如DataCastle的訓練競賽“房價預測”和“職位預測”,都可以透過迴歸分析實現。這部分需要掌握的知識點如下:
迴歸分析:線性迴歸、邏輯迴歸
基本的分類演算法:決策樹、隨機森林……
基本的聚類演算法:k-means……
特徵工程基礎:如何用特徵選擇最佳化模型
調參方法:如何調節引數最佳化模型
Python 資料分析包:scipy、numpy、scikit-learn等
在資料分析的這個階段,重點了解迴歸分析的方法,大多數的問題可以得以解決,利用描述性的統計分析和迴歸分析,你完全可以得到一個不錯的分析結論。
當然,隨著你實踐量的增多,可能會遇到一些複雜的問題,你就可能需要去了解一些更高階的演算法:分類、聚類,然後你會知道面對不同型別的問題的時候更適合用哪種演算法模型,對於模型的最佳化,你需要去學習如何透過特徵提取、引數調節來提升預測的精度。這就有點資料探勘和機器學習的味道了,其實一個好的資料分析師,應該算是一個初級的資料探勘工程師了。
系統實戰
這個時候,你就已經具備了資料分析的基本能力了。但是還要根據不同的案例、不同的業務場景進行實戰。能夠獨立完成分析任務,那麼你就已經打敗市面上大部分的資料分析師了。
如何進行實戰呢?
上面提到的公開資料集,可以找一些自己感興趣的方向的資料,嘗試從不同的角度來分析,看看能夠得到哪些有價值的結論。
另一個角度是,你可以從生活、工作中去發現一些可用於分析的問題,比如上面說到的電商、招聘、社交等平臺等方向都有著很多可以挖掘的問題。
開始的時候,你可能考慮的問題不是很周全,但隨著你經驗的積累,慢慢就會找到分析的方向,有哪些一般分析的維度,比如top榜單、平均水平、區域分佈、年齡分佈、相關性分析、未來趨勢預測等等。隨著經驗的增加,你會有一些自己對於資料的感覺,這就是我們通常說的資料思維了。
你也可以看看行業的分析報告,看看優秀的分析師看待問題的角度和分析問題的維度,其實這並不是一件困難的事情。
在掌握了初級的分析方法之後,也可以嘗試做一些資料分析的競賽,比如 DataCastle 為資料分析師專門定製的三個競賽,提交答案即可獲取評分和排名:
員工離職預測訓練賽
美國King County房價預測訓練賽
北京PM2.5濃度分析訓練賽
種一棵樹最好的時間是十年前,其次是現在。現在就去,找一個數據集開始吧!!
-
10 # 王寧寧578
要想從事資料分析的工作,我覺得一定要掌握一些資料的視覺化分析軟體的使用方法,當然也與你的具體的工作方向有關哦。為什麼說一定要去掌握資料視覺化軟體的分析方法呢,舉個最簡單的例子,我們都知道資料量很大,但是雜亂無章的資料本身是沒有任何意義的,只有將資料進行統計分類,才能展現出龐大資料的背後意義,因此,我認為掌握一款自助式資料探索與視覺化分析的軟體是十分必要的。現在市面上類似的平臺有很多,我用的是東軟平臺雲的一個叫DataViz的,個人覺得還挺好用的,你可以看一下效果。
-
11 # 帆軟軟體
其實,資料分析沒有想象中那麼難,入門也沒有那麼多條條框框,很多人缺少的只是一個科學規劃的學習過程。我簡單盤算了一下資料分析的入門知識,大體分為以下這些,只要拿出你大學時啃高數的狀態,每週夯實一個基礎,基本能學成。
話不多說,下面就是用十週入門資料分析師的學習清單!
學習大綱資料分析的思維和方法Excel進階資料庫和SQL入門數理統計學資料分析軟體應用資料視覺化常見的業務分析模型Python/R語言掌握業務理解和指標設計增長駭客:資料驅動增長第一週:培養資料分析思維為什麼資料分析思維很重要?如果我們在分析一個問題前,思維缺失就像下面圖中所表達的一樣,往往不知道問題從哪裡下手,即使拿到資料也是一臉懵逼。所以我們要透過訓練資料分析思維,幫助在遇到問題時,大家腦中能快速梳理出分析的切入點以及思路,這一點很重要。
常用的一些思維方式:
1、金字塔/結構化思維:把待分析問題按不同方向去分類,然後不斷拆分細化,能全方位的思考問題,一般是先把所有能想到的一些論點先寫出來,然後在進行整理歸納成金字塔模型。主要透過思維導圖來寫我們的分析思維。
2、公式化思維:在結構化的基礎上,這些論點往往會存在一些數量關係,使其能進行+、-、×、÷的計算,將這些論點進行量化分析,從而驗證論點。所謂指標體系,就是這麼梳理得來的。
3、業務化思維:業務化即是深入瞭解業務情況,結合該專案的具體業務進行分析,並且能讓分析結果進行落地執行。用業務思維去思考,站在業務人員或分析物件的角度思考問題,深究出現這種現象的原因或者透過資料推動業務。透過貼近業務,換位思考,積累經驗來增加業務思維。
同時,這樣的思維模式在一些特定業務場景下,還衍生出一些基礎的分析方法,比如象限法、多維法、假設法、指數法、二八法、對比法、漏斗法,這個對未來構建分析模型都有幫助。
思維模型的好處是他能提供一種視角或思維框架,從而幫助你建立起觀察事物和分析問題的視角。透過對思維模型的學習和訓練,能提高你成功的可能性。
第二週:Excel技能進階學習Excel是一個循序漸進的過程基礎的:
簡單的表格資料處理、篩選、排序函式和公式:常用函式、高階資料計算、陣列公式、多維引用、function視覺化圖表:圖形圖示展示、高階圖表、圖表外掛資料透視表、VBA程式開發按照我習慣的方法,先過一遍基礎,知道什麼是什麼,然後找幾個case練習。多逛逛excelhome論壇,平常多思考如何用excel來解決問題,善用外掛。函式和資料透視表是兩個重點,結合業務場景來學習。其中資料透視表的作用是把大量資料生成可互動的報表,實現分類彙總、取平均、最大最小值、自動排序、自動篩選、自動分組;可分析佔比、同比、環比、定比、自定義公式。
第三週:學習資料庫原理和SQL做資料分析,資料從哪裡來?資料庫!
怎麼取資料?寫SQL!做資料分析,取數、清洗資料,基本都要依賴SQL。
初入門階段,對於資料庫不必精通,只需瞭解常用的資料庫型別,能夠在現有的表格裡面查詢出資料,能夠更新資料對資料進行重編碼,知道怎麼增加新增資料,把資料變得規整就行。
理解主鍵,索引等含義和用處;匯入匯出資料可以使用工具,分析資料可以使用ODBC或者其他的介面對資料庫進行連線;取數的排序,做資料的交集並集,資料轉換,資料表合併等等這些,最好也能掌握。
sql的學習,看這個就夠了:SQL教程_w3cschool第四周:數理統計學統計學是資料分析師必備的基礎知識之一,是一組用於彙總資料和量化給定觀測樣本域屬性的工具。這一週,我們需要掌握統計學的以下幾大概念:
1.集中趨勢(中數、眾數、平均數)2.變異(四分位數、四分位距、異常值、方差)3.歸一化(標準分數)4.正態分佈5.抽樣分佈(中心極限、抽樣分佈)6.估計(置性度、置信區間)7.假設檢驗8.T檢驗推薦書籍:吳喜之-《統計學·從資料到結論》第五週:資料分析軟體應用有了資料分析思維基礎,懂一些統計學知識之後,我們就可以著手開始相對專業的分析,用視覺化的方法探索資料的規律。
這一週,除了Excel,你需要掌握一個傍身的資料分析工具。考慮到快速入門,這裡暫時放一放SPSS、R、Python一類工具,先掌握BI工具的運用,幫助快速熟悉起資料分析的流程。
知名的BI產品有Tableau,Power BI,還有國內的FineBI,網上都有體驗版和免費版下載。處理好的資料拿來放BI分析,分分鐘就能出很漂亮的視覺化,比Excel的圖表高階多了,而且絕大多數人都能輕鬆上手。
BI需要掌握資料的連線,還有儀表盤Dashboard的概念,知道絕大多數圖表適用的場景和怎麼繪製,維度和指標的區分。一些資料的清洗,如果BI掌握得透徹也可以放BI處理,但不熟悉還是用SQL處理吧。
第六週:資料視覺化視覺化看似是簡單的步驟,但也是有造詣的。
視覺化說白了是一種表達,資料分析結果表達的是否到位,領導是否認同,工資漲不漲,全靠這一紙dashboard(當然還有你“講故事”的功力)。
如何選擇最佳的圖表型別?趨勢性、相關性、分佈性、週期性、地理位置分佈性……顏色和字型等細節樣式方面,如何進行更加美觀的調配。佈局設計原則,故事性佈置視覺化儀表板,報告的標題和結論註釋,以及整體展現的邏輯性。還有很多視覺化的陷阱,都是值得花一週探究的。
第七週:常見的業務分析模型基於一些資料分析方法,如象限法、多維法、假設法、指數法、二八法、對比法、漏斗法,在特定業務場景下,還衍生了通用的業務分析模型,常用的有購物籃分析模型,RFM模型,漏斗分析模型,客戶生命週期,以及預測、聚類分析等挖掘模型。
這一週我們要掌握常用的分析模型,最好能有深刻的認識,直接套用到實際的業務場景中,活學活用。
第八週:Python/R語言掌握到這一週,資料分析的入門之路基本上完成一大半。本著提升自己,以及加大自己求職和麵試的籌碼,掌握Python或R絕對是加分項。
有關資料分析的程式語言有Python和R語言。R語言傾向於統計分析、繪圖等。統計學家或者學統計學的喜歡用R語言,而我更青睞學習Python,因為Python是面向未來的語言,無論從流行度、可用性還是學習難度來講,Python都是最好的入門語言。
Python有很多分支,但我們學習的主題是資料分析,入門推薦《深入淺出Python程式設計》
從code academy開始學起,完成上面的所有練習。
其次,掌握三個庫Numpy、Pandas、Matplotlib。
第九周:業務理解和指標設計到了第九周,大家可以發現,這個學習計劃更多是偏業務的資料分析,可見業務理解的重要性。但業務理解需要多年的積累,沒有掌握的捷徑。
剛入門也不會拷問太多業務上的問題,更多時候是考驗你邏輯思維能力和資料分析的方法。所以簡單花一週時間瞭解各行業的業態,各業務的通用指標。
其次,指標體系。幾乎一個數據崗的崗位要求都會涉及這樣一句話:“負責建立和最佳化部門的資料指標體系”。事實上目前大多的資料崗主要工作都是不斷完善與最佳化資料指標體系,而對層面的工作是比較少的,即使崗位叫做資料分析師 。一個優秀的資料指標體系,不僅能讓你快速解決資料需求,洞察出可能會被忽略的價值資料,還能反映出你目前最需解決的業務問題。所以,這一週還要掌握梳理業務指標的思路。
第十週:資料驅動&增長駭客這個話題比較嚴肅,需要把資料分析師這個崗位放到整個公司甚至整個行業來看。任何一個崗位的設定都是要為企業帶來價值或利潤的,資料分析師也是如此。要搞清未來價值所在,升職加薪之路才會明朗。
目前有一個非常火的詞來形容一類資料分析師,叫“增長駭客”,所做的事也很時髦,叫“資料驅動”。字面意思很好理解,就是利用資料分析技術給業務帶來增長,驅動企業轉型。
本週,你要了解業界不管是傳統行業還是網際網路行業資料驅動業務增長的成功案例。未來成為增長駭客要做好哪些準備?日常工作中,如何讓自己避免成為“取數機”?如何推動資料分析工作並得到老闆重視?工作中有哪些工作細節,去潛移默化的改變身邊人尤其是老闆對資料價值的認知?
自己目前在網際網路公司從事運營工作,想轉行資料分析師,目前的基礎主要有excel、sql和一點統計學知識。想請教各位老師,如何才能快速成為一名資料分析師呢?
回覆列表
資料分析分為兩部分,資料和分析,資料的話最基本的是透過Excel和PPT展示,有時需要SPSS,PS等軟體,而分析才是大學問。對於資料的引用,分析的方法,資料的視覺化,這些都要面面俱到。
作為分析師,報告質量是老闆衡量你能力的標準。分析出來的報告不只是分析,還要有自己獨到的結論和觀點。同時報告質量又受報告整體的樣式,報告的排版等所影響。資料視覺化,資料觀賞性,這都是加分項。推薦你可以參考一些資料機構或諮詢機構。國家統計局,中國信通院,艾媒諮詢,這些都可以看看。