-
1 # 西線學院
-
2 # 鄒昕
不是騰訊的資料分析師,不過是這個領域的,在 Facebook 做資料分析,來簡單介紹一下。
資料分析師需要三個方面的能力:技術(程式設計),資料分析方法,行業知識。
1. 技術
SQL 是肯定要會的,不然沒法處理資料。有很多可以練習的網站,比如
http://www.w3schools.com/sql/default.asphttps://community.modeanalytics.com/sql/tutorial/introduction-to-sql/
https://sqlzoo.net/
中文版的 w3c:https://www.w3cschool.cn/sql/
重點需要注意的:where / group by / order by / left join / right join / inner join / null / not null / having / distinct / like / union / avg / sum / min / max 學完之後再搜尋一下 "SQL hardest questions", 做做練習。當然除了 SQL 之外,Excel 也是要會一點的。
不過 Excel 這玩意兒基本多少都會那麼些吧,比如說做個圖,算算總合、平均之類的,稍微複雜點的資料透視表 (pivot) 就夠了。
話說我第一份工作的時候連資料透視表都不會,所以說如果你不會這個,那也沒關係。
如果 SQL 上手比較快,時間充裕,那就練練 Tableau, 主要目的是看看都有什麼樣的圖表,感受一下各自適用什麼樣的場景。
具體怎麼做圖不是非常重要,真要用的時候搜尋一下現學就好了。
Tableau 很貴,所以下個試用版的就可以了,然後試用期學點最基本的就可以了。
2. 資料分析方法
Case in point. 經典的管理諮詢的書,哪個版本的都無所謂了,因為套路都是類似的,看一半也就差不多可以了。
任何一本機率入門的書,比如 Introduction to Probability Models by Sheldon M. Ross. 應該是出到第 11 版了,但內容應該區別不大,看第一章就可以了,需要搞清楚條件機率,這個概念還是有點重要的。
然後再找本統計基礎的書(隨便哪本教科書都差不多,實在不行的話把 wiki 上統計長條目下的多看幾遍也可以),不要太糾結於理論、證明,時刻記住你要能把這些概念解釋給不懂統計的人聽,解釋不清楚的東西你也不用搞清楚。
搞清楚幾種常見的分佈,假設檢驗,假陽性,假陰性,區別估算,顯著性差異,p-value,平均值,中位數,p1/p25/p50/p75/p99,相關性,因果性,倖存者偏差,大數定律,80/20。
Thinking, Fast and Slow. 當科普書看看就好,如果看不下去的話那就看《牛奶可樂經濟學》。
3. 行業知識
很不幸,這一部分就真的沒有什麼書可以看的了,基本都靠搜尋,總結,思考,再搜尋,總結,思考。。。如果平時對網際網路、科技行業相對比較關注,這一部分會上手很快,瞭解一些基本概念,試用一些產品。
-
3 # 52sissi
大資料分析 課程大綱你可以參考,要學的東西挺多的
https://www.aaa-cg.com.cn/data/1893.html
-
4 # IT技術管理那些事兒
其實根本就沒有什麼資料分析師,或者說,人人都是資料分析師。
懂我這個意思嗎?
我的文章裡,也寫過很多資料行業的知識,你可以去看看,其實有時候想想,你就不一定非得從事這樣的行業了。
就拿資料探勘來說吧,據我所知,廠商今年都混的不怎麼樣,為什麼?客戶需求很少,而且都是定製化的,整個專案的週期很長。
還有就是一個企業裡,網際網路公司可能還好一點,資料分析師根本不需要那麼多,你看看騰訊的資料分析報錄比,200以上是肯定的,今年還會更高。
那怎麼辦?可以曲線進入,很多大資料的崗位也和資料分析、資料探勘差不多,而且壓力還小一點,反正進去都是寫sql。
回覆列表
眾多新的軟體分析工具作為深入大資料洞察研究的重要助力,成為資料科學家所必須掌握的知識技能。
傳統資料分析所用工具
1、Excel作為電子表格軟體,適合簡單統計(分組/求和等)需求,由於其方便好用,功能也能滿足很多場景需要,所以實際成為研究人員最常用的軟體工具。其缺點在於功能單一,且可處理資料規模小。這兩年Excel在大資料方面(如地理視覺化和網路關係分析)上也作出了一些增強,但應用能力有限。
2、SPSS(SPSS Statistics)和SAS作為商業統計軟體,提供研究常用的經典統計分析(如迴歸、方差、因子、多變數分析等)處理。SPSS輕量、易於使用,但功能相對較少,適合常規基本統計分析。
3、SAS功能豐富而強大(包括繪圖能力),且支援程式設計擴充套件其分析能力,適合複雜與高要求的統計性分析。
資料儲存和管理所用工具
Hadoop現在幾乎已經等同於大資料。它是儲存在計算機叢集中的超大資料集的一個開源的分散式的基礎架構。你可以隨意增大或減小你的資料量而不用擔心硬體故障。Hadoop提供了對任何種類的海量資料的儲存、強大的處理能力和幾乎無限的並行工作能力。
Hadoop並不適合資料初學者。要想充分發揮Hadoop的能力,你需要了解Java。學習Java可能耗時,但是Hadoop絕對值得你付出,因為大量的公司和技術都依賴於它甚至和它融為了一體。
資料清洗所用工具
在你進行資料探勘之前,應該先對你的資料進行清洗。OpenRefine現在是一款用來專門清洗混亂資料的開源工具。從而使你能夠輕鬆和快速的探索有一定程度非結構化的大資料集。
資料探勘所用工具
資料探勘作為大資料應用的重要領域,在傳統統計分析基礎上,更強調提供機器學習的方法,關注高維空間下複雜資料關聯關係和推演能力。代表是SPSS Modeler,SPSS Modeler的統計功能相對有限,主要是提供面向商業挖掘的機器學習演算法(決策樹、神經元網路、分類、聚類和預測等)的實現。同時,其資料預處理和結果輔助分析方面也相當方便,這一點尤其適合商業環境下的快速挖掘。不過就處理能力而言,實際感覺難以應對億級以上的資料規模。
大資料常用的程式語言
2、Python語言——最大的優勢是在文字處理以及大資料量處理場景,且易於開發。在相關分析領域,Python代替R的勢頭越來越明顯。