首頁>Club>
4
回覆列表
  • 1 # 西線學院

      根據資料科學家一生的三個發展階段,將這些計劃做了分類。大家可以自己判斷哪些計劃適合自己並按照計劃行動起來。如果你已經成功地完成了現有階段的任務,就可以轉向下一階段。

      初級水平

      什麼是初學者?——如果解析學和資料科學對你來說是全新的領域,你也不知該行業的發展模式,而你又想在這個行業大展拳腳一番,那麼初學者就是你。以下這些應該在你的計劃之內。

      1. R語言也好,Python語言也好,學習一門新的程式語言

      我曾見到有同學同時學習R語言和Python語言,最後落得兩手空空。這種做法是很致命的。你一定要沉下心來專攻一門。鑑於這兩種語言都是開放原始碼工具,所以在公司裡都有廣泛運用。Python被公認為最簡單的程式語言,而R語言一直都是最受青睞的統計工具。學習哪一門的決定權在你,因為兩個同等出色。

      推薦課程:推薦R語言和Python入門課程《Python入門:資料探勘實戰》、《R語言入門》

      2. 學習統計學和數學

      統計學的內容全都是關於假設和數列,然而沒有統計學和數學的知識你很難深入到資料行業裡,這是資料科學家的重中之重。

      3.一次性完成一門網路開放課程(最難執行)

      大規模網路開放課程可以免費獲取和學習,可這對你來說也是最難實現的諾言。很多學生通常一次性註冊選修很多課程,結果一門也沒有圓滿完成。所以,你一定要一次專注一門課,完成之後再選下一門。

      推薦課程:推薦R語言和python進階課程:《R語言實戰》、《Python進階:資料探勘演算法》

      4.瞭解業界動態,善於探索和發現

      你要了解業內動態。我們生活在一個變化的世界,一夜之間事物就可能發生重大變化,今日和流行的技術明日就很可能面臨淘汰。你一定要多與一些富有經驗的專業人士、業內專家交流,預見未來的自己。所以趕快參與到討論和聚會中來吧,關注一些微博微信,加入一些群組,多閱讀一些書籍。

      中級水平

      中級水平的資料科學家是什麼樣的?——如果你已經完成了前一階段的內容,有過機器學習基礎知識的實踐經驗,掌握了建立預測模型的知識,那你就達到了中級水平。完成這一階段需要強大的決心和持久的練習。你準備好迎接這個挑戰了嗎?

      1.理解並構建你的機器學習技能

      機器學習是資料科學和技術的未來。所有的大型企業都不惜重金僱用掌握這個技能的人才。毫無疑問,近日來這項技術的需求越來越大,現在正是你充分利用這一局面的大好時機。今年,你應該努力在機器學習上精益求精,深入掌握迴歸、聚類和分類與迴歸樹(CART)技能。

      推薦課程:《機器學習與R語言實踐》,斯坦福大學公開課《機器學習》

      2. 專注整合演算法和Boosting演算法

      一旦你對機器學習充滿自信,那就繼續去學習其他模型。透過Boosting和整合演算法,你的模型準確率與其他演算法相比會突飛猛進。

      3. 探索Spark、NoSQL和其他大資料工具

      今年你的學習之旅始於大資料。考慮到大資料專業人員的需求激增,你一定要學習Spark,這個工具最近非常火爆。大資料的未來就在Spark,它廣泛用於處理和操縱資料。除此之外,你還可以拓展到NoSQL和Hadoop領域來。

      推薦課程:從Spark邁出學習第一步。推薦觀看課程《大資料實戰工具Spark》

      4.給社群成員做分享

      還有什麼比分享知識更美妙呢!從今年開始,你可以把自己的知識分享給正在資料科學的路上不斷探索的人們。你可以加入活躍的資料科學論壇,給他們答疑解惑,你也可以在附近的行業圈裡發起聚會。

      高階水平

      對於進入這個階段的人我就不需要來給出標準了,你們所瞭解的資料科學,很多人甚至連嘗試的勇氣都沒有。身處這一階段,你們的生活愜意而又自如。可有時還想去迎接挑戰,以下是一些計劃。

      1. 建立深度學習模式

      你們要為有志於成為資料科學家的人們樹立榜樣。你要下決心在今年建立深度學習的模式。全球的人都在用這一模式進行預測,它是機器學習的高階階段,其準確率明顯高於普通的機器學習模型。

      推薦課程:完成深度學習輔導課程任務。

      2.回饋

      我相信知識的意義不是被束之高閣,而是與人分享。分享越多,收穫越大。據說,如果你瞭解一個新概念並解釋給你的兩個朋友,你對這個概念的記憶很可能會更久。所以今年,你必須制定計劃,運用自己的知識和經驗幫助資料分析學領域的人。這也會為更多的在這個領域的人指明方向。

      推薦任務:在社群分享你的知識。

      3. 探索強化學習

      強化學習是機器學習中最有效而又鮮有發現的領域。今年,你可以下定決心研究下這個領域。雖然很有挑戰性,但是一定值得你去嘗試。無人汽車、無人偵察機就是強化學習的碩果。一旦開始學習這些,你就自然而言地進入到了人工智慧領域。

  • 2 # 資料分析不是個事兒

    優秀的資料分析師並不能速成,但是零經驗也有零經驗的捷徑。

    市面上有《七週七資料庫》,《七週七程式語言》。今天我們就《七週七學習成為資料分析師》,沒錯,七週。

    第一週:Excel學習掌握

    如果Excel玩的順溜,可以略過這一週。但很多人並不會vlookup,所以有必要講下。

    瞭解sum,count,sumif,countif,find,if,left/right,時間轉換等。excel的各類函式很多,完全不需要學全。重要的是學會搜尋。我學函式是即用即查,將遇到的問題在網上搜索得到所需函式。

    重中之重是學會vlookup和資料透視表。這兩個對後續的資料轉換有幫助。

    學會vlookup,SQL中的join,Python中的merge能很快掌握。

    學會資料透視表,SQL中的group,Python中的groupby也是同理。

    這兩個搞定,基本10萬條以內的資料統計沒啥難度,也就速度慢了點。80%的辦公室白領都能秒殺。

    網上多找些習題做,Excel是熟能生巧。

    養成一個好習慣,不要合併單元格,不要過於花哨。表格按照原始資料、加工資料,圖表的型別管理。

    附加學習:

    1、瞭解中文編碼utf-8,ascii的含義和區別

    2、瞭解單元格格式,幫助你瞭解後期的timestamp,date,string,int,bigint,char,factor等各類格式。

    3、如果時間還有剩餘,可以看《大資料時代》,培養職業興趣。

    第二週:資料視覺化

    資料分析界有一句經典名言,字不如表,表不如圖。別說平常人,資料分析師自己看資料也頭大。這時就得靠資料視覺化的神奇魔力了。

    以上就是所謂的視覺化。排除掉資料探勘這類高階分析,不少資料分析師的平常工作之一就是監控資料觀察資料。

    另外資料分析師是需要兜售自己的觀點和結論的。兜售的最好方式就是做出觀點清晰資料詳實的PPT給老闆看。如果沒人認同分析結果,那麼分析也不會被改進和最佳化,分析師的價值在哪裡?工資也就漲不了對吧。

    抽空花一段時間學習視覺化的基礎,如《資料之美》

    另外你還需要了解BI的概念。知名的BI產品有Tableau,Power BI,還有國產的FineBI等。都有體驗版和免費版能下載,網上找一點資料就能體驗視覺化的魅力。比Excel的圖表高階多了。

    BI需要了解儀表盤Dashboard的概念,知道維度的聯動和鑽取,知道絕大多數圖表適用的場景和怎麼繪製。比如以下FineBI製作的dashboard。

    第三週:分析思維的訓練

    這周我們輕鬆一下,學學理論知識。

    分析思維首推大名鼎鼎的《金字塔原理》,幫助資料分析師結構化思維。如果金字塔原理讓你醍醐灌頂,那麼就可以學思維導圖,下載一個XMind中文網站,或者線上用百度腦圖。

    再瞭解SMART、5W2H、SWOT、4P理論、六頂思考帽等框架。這些框架都是大巧不工的經典。你要快速成為資料分析師,思考方式也得跟著改變。網上搜諮詢公司的面試題,搜Case Book。

    題目用新學的思維導圖做,先套那些經典框架,做一遍,然後去看答案對比。因為要鍛鍊資料分析能力。所以得結合資料導向的思維。

    這裡送三條金句:

    一個業務沒有指標,則不能增長和分析

    好的指標應該是比率或比例

    好的分析應該對比或關聯。

    舉一個例子:我告訴你一家超市今天有1000人的客流量,你會怎麼分析?

    這1000人的數量,和附件其他超市比是多是少?(對比)

    這1000人的數量比昨天多還是少?(對比)

    1000人有多少產生了實際購買?(轉化比例)

    路過超市,超市外的人流是多少?(轉化比例)

    這是一個快速搭建分析框架的方法。如果只看1000人,是看不出分析不出任何結果。

    第四周:資料庫學習

    Excel對十萬條以內的資料處理起來一點不虛,但是資深的資料分析師還是笑摸狗頭,Too Young Too Sample,爺搞得都是百萬資料。要百萬資料,就得上資料庫。

    SQL是資料分析師的核心技能之一。有些公司並不給資料庫許可權,需要分析師寫郵件提需求,這非常不好。資料分析師經常有各類假設需要驗證,很多時候寫十幾行SQL就能得到的答案,還得麻煩其他部門匯出資料。

    SQL學習不需要買書,W3C學習就行了,SQL 教程。大多數網際網路公司都是MySQL,我也建議學,價效比最高。

    作為資料分析師,只要懂Select相關,增刪改、約束、索引、資料庫正規化全部略過。你的公司心得多大才會給你寫許可權。

    瞭解where,group by,order by,having,like,count,sum,min,max,distinct,if,join,left join,limit,and和or的邏輯,時間轉換函式等即可。

    你看,和Excel的函式都差不多。如果時間充裕,則學習row_number,substr,convert,contact等。和Excel一樣,學會搜尋解決問題。不同引擎的函式也會有差異,例如Presto和phpMyAdmin。

    期間你不需要考慮最佳化和寫法醜陋,查詢幾秒和幾分鐘對資料分析師沒區別,跑資料時喝杯咖啡唄,以後你跑個SVM都能去吃飯了。

    網上搜索SQL相關的練習題,刷一遍就行。也能自己下載資料庫管理工具,找些資料練習。我用的是Sequel Pro。

    第五週:統計知識學習

    統計學是資料分析的基礎之一。

    統計知識會要求我們以另一個角度看待資料。當你知道AB兩組的差異用平均值看是多傻的事情,你的分析技巧也會顯著提高。

    這一週努力掌握描述性統計,包括均值、中位數、標準差、方差、機率、假設檢驗、顯著性、總體和抽樣等概念。詳細的數學推導不用細看,誰讓我們是速成呢,只要看到資料,知道不能怎麼樣,而是應該這樣分析即可。

    Excel中有一個分析工具庫,簡單強大。對列1的各名詞做到了解。如果是多變數多樣本,學會各種檢驗。

    《統計數字會撒謊》休閒讀物,有趣的案例可以讓我們避免很多資料陷阱。

    深入淺出統計學 (豆瓣)還是經典的HeadFirst系列,適應它一貫的囉嗦吧。

    多說一句,老闆和非分析師不會有興趣知道背後的統計學原理,通常要的是分析後的是與否,二元答案。不要告訴他們P值什麼的,告訴他們活動有效果,或者沒效果。

    第六週:業務學習(使用者行為、產品、運營)

    這一週需要了解業務。對於資料分析師來說,業務的瞭解比資料方法論更重要。當然很遺憾,業務學習沒有捷徑。

    我舉一個數據沙龍上的例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低於其他城市,導致使用者的好評率降低。總部的資料分析師建立了各個指標去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。

    這個案例中,我們只知道送貨員的送貨水平距離,資料上根本不可能知道垂直距離這個指標。這就是資料的侷限,也是隻會看資料的分析師和接地氣分析師的最大差異。

    對於業務市場的瞭解是資料分析師工作經驗上最大優勢之一。既然是零經驗面試,公司肯定也知道剛入門分析師不會有太多業務經驗,不會以這個卡人。所以簡單花一週瞭解行業的各指標。

    《增長駭客》

    資料驅動業務的典型,裡面包含產品運營最經典的AAARR框架,部分非資料的營銷案例,

    《網站分析實戰》

    《精益資料分析》

    網際網路資料分析的入門書籍,歸納總結了幾個常用的分析框架。比較遺憾的是案例都是歐美。

    還有一個小建議,現在有不少第三方的資料應用,囊括了不少產品領域的資料分析和統計。自學黨們即使沒有生產環境的資料,也可以看一下應用Demo,有好處的。

    除了業務知識,業務層面溝通也需要掌握。另外建議在面試前幾天收集該行業的業務強化一下。

    第七週:Python/R學習

    終於到第七週,也是最痛苦的一週。這時應該學習程式設計技巧。是否具備程式設計能力,是初級資料分析和高階資料分析的風水嶺。資料探勘,爬蟲,視覺化報表都需要用到程式設計能力。掌握一門優秀的程式語言,可以讓資料分析師事半功倍,升職加薪,迎娶白富美。

    這裡有兩條支線,學習R語言或Python。速成只要學習一條,以後再補上另外一門。

    R的優點是統計學家編寫的,缺點也是統計學家編寫。如果是各類統計函式的呼叫,繪圖,分析的前驗性論證,R無疑有優勢。但是大資料量的處理力有不逮,學習曲線比較陡峭。Python則是萬能的膠水語言,適用性強,可以將各類分析的過程指令碼化。Pandas,sklearn等各包也已經追平R。

    如果學習R,建議看《R語言實戰》,照著書本打一遍程式碼,一星期綽綽有餘。另外還有一本《統計學》,偏知識理論,可以複習前面的統計學知識。

    R學習和熟悉各種包。知道描述性統計的函式。掌握DataFrame。如果時間有餘。可以再去學習ggplot2。

    Python擁有很多分支,我們專注資料分析這塊,入門可以學習《深入淺出Python》。

    需要學會條件判斷,字典,切片,迴圈,迭代,自定義函式等。知道資料領域最經典的包Pandas+Numpy。

    在速成後的很長一段時間,我們都要做調包俠。

    這兩門語言最好安裝IDE,R語言我建議用RStudio,Python我建議用 Anaconda。都是資料分析的利器。

    Mac自帶Python2.7,但現在Python 3已經比幾年前成熟,而且沒有編碼問題。各類教程也足夠多,不要抱成守舊了。Win的電腦,安裝Python會有環境變數的問題,是個大坑(R的中文編碼也是天坑)。

    到這裡,剛剛好是七週。如果還需要第八週+,則是把上面的鞏固和融會貫通,畢竟速成是以轉崗或拿offer為目的。有機會,我會專門寫文章講解每一週的具體知識,並且用爬蟲爬一些資料做練習和案例。

  • 3 # 排球歷史

    如何入門,也就是說非科班出身,更講究實用性。

    1、把大資料當成資料分析。親,大資料更多是資料技術以及資料庫相關,可以說是個職業了,非專業人士去學幹嘛?

    2、把程式設計和it相關知識當成資料分析。這個就不細說了,理由同上。

    3、把資料分析當成高校專業學科學習。非專業人士有必要去學的這麼深奧嗎?這樣的結果只能導致過早放棄。什麼傅立葉基值濾波單純性法來一波,人都睡著了。

    4、把Excel用個函式搞個透視,就叫資料分析,充其量是Excel技巧而已。

    那麼,非專業資料分析怎麼入門?

    說白了,就是領導讓你去分析個東西,你能分析的好點。需要的不是多牛的技術和理論,Excel足矣,關鍵是分析問題的思維。

    為什麼你辛苦半天分析東西領導看不上?讓你重搞,領導的思路想法,就是非專業人士學習資料分析最需要學習的。

    補充:有同學問我有沒有好的教程,不要理論派技術派,最好是免費的。

    小編回答下,在騰訊課堂搜尋"秀林Excel",第一個職場實戰就是免費的,裡面有送的兩期資料分析思維的課程。來源於小編另一門剛上架的收費課程"Excel,從資料分析看管理"裡面的。連結:

    https://ke.qq.com/course/243419

    所以說,資料分析入門的要求和用處決定了入門的方法和內容。

  • 4 # 你醜到我了你走

    大資料確實是比較火的,後期的發展也比較好,就是不知道你在那座城市,我們成都這邊的話基本都是從java入手,學會java以後,工作的時候在慢慢轉大資料,而且你也是小白,直接去考慮大資料這一塊的話會比較難,浪費時間和精力。所以在前期可以找個技術強一點的,先學會一點技術再說吧。

  • 5 # 小A說職場

    想要成為資料分析師,給大家分享一份初級的入門指南!

    它包含Excel、資料視覺化、資料分析思維、資料庫、統計學、業務、以及Python。

    這七part 的內容剛好涵蓋了一位資料分析師需要掌握的基礎體系,也是一位新人從零邁入資料大門的知識手冊。

    第一part:Excel

    每一位資料分析師都脫離不開Excel。

    它是日常工作中最常用的工具,如果不考慮效能和資料量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

    Excel的學習分為兩個部分。

    掌握各類功能強大的函式,函式是一種負責輸入和輸出的神秘盒子。把各類資料輸入,經過計算和轉換輸出我們想要的結果。

    在SQL,Python以及R中,函式依舊是主角。掌握Excel的函式有助於後續的學習,因為你幾乎在程式設計中能找到名字一樣或者相近的函式。

    在「資料分析:常見的Excel函式全部涵蓋在這裡了」中,介紹了常用的Excel函式。

    清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text

    關聯匹配類:lookup、vlookup、index、match、row、column、offset

    邏輯運算類:if、and、or、is系列

    計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round

    時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif

    搜尋能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

    第二部分是Excel中的工具。

    在「資料分析:Excel技巧大揭秘」教程,介紹了Excel最具價效比的幾個技巧。包括資料透視表、格式轉換、陣列、條件格式、自定義下拉選單等。正是這些工具,才讓Excel在分析領域經久不衰。

    在大資料量的處理上,微軟提供了Power系列,它和Excel巢狀,能應付百萬級別的資料處理,彌補了Excel的不足。

    Excel需要反覆練習,實戰教程「資料分析:手把手教你Excel實戰」,它透過網路上抓取的資料分析師薪資資料作為練習,總結各類函式的使用。

    除了上述要點,下面是附加的知識點,鋪平資料分析師以後的道路。

    瞭解單元格格式,資料分析師會和各種資料型別打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。

    瞭解陣列,以及相關應用(excel的陣列挺難用),Python和R也會涉及到 list,是核心概念之一。

    瞭解函式,深入理解各種引數的作用。它會在學習Python中幫助到你。

    瞭解中文編碼,UTF8、GBK、ASCII,這是資料分析師的坑點之一。

    第二part:資料視覺化

    資料分析界有一句經典名言,字不如表,表不如圖。

    資料視覺化是分析的常用技巧之一,不少資料分析師的工作就是透過圖表觀察和監控資料。首先了解常用的圖表:

    Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

    在「資料視覺化:你想知道的經典圖表全在這」中介紹了各類資料分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的型別。

    資料視覺化不是圖表的美化,而是呈現資料的邏輯之美,是揭示資料的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露資料內在狀態的變化和流向。案例是使用者活躍狀態的趨勢。

    Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的視覺化報表。「資料視覺化:教你打造升職加薪的報表」教給大家常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

    Excel圖表的創造力是由人決定的,對資料的理解,觀察和認知,以及對視覺化的應用,這是一條很長的道路。

    圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

    上圖就是用分析師薪資資料為資料來源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

    BI(商業智慧)主要有兩種用途。一種是利用BI製作自動化報表,資料類工作每天都會接觸大量資料,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從資料規整、建模到下載。

    另外一種是使用其視覺化功能進行分析,它提供比Excel更豐富的互動功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

    在「資料視覺化:手把手打造BI」教程中,以微軟的PowerBI舉例,教大家如何讀取資料,規整和清洗資料,繪製圖表以及建立Dashboard。最後的成果就是上文列舉的分析師案例。

    BI還有幾個核心概念,包括OLAP,資料的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

    後續的進階視覺化,將和程式設計配合。因為程式設計能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

    第三part:資料分析思維資料分析能力的高低,不以工具和技巧決定,而以分析思維決定。

    在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

    分析思維決定一場「資料戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好資料。

    既然是思維,它就傾向於思考的方式,Excel函式學會了就是學會,分析則不同。大多數人的思維方式都依賴於生活和經驗做出直覺性的判斷,以「我覺得我認為」展開,好的資料分析首先要有結構化的思維。

    麥肯錫是其中領域的佼佼者,建立了一系列分析框架和思維工具。最典型地莫過於金字塔思維。

    這篇文章簡述了該思維的應用,「快速掌握麥肯錫的分析思維」。你能學會結構化思考,MECE原則,假設先行,關鍵驅動等方法論。

    除此以外,還有SMART、5W2H、SWOT、4P4C、六頂思考帽等,這些都是不同領域的框架。框架的經典在於,短時間內指導新人如何去思考,它未必是最好的,但一定是價效比最優的。資料分析思維,是分析思維的引申應用。再優秀的思考方式,都需要佐證和證明,資料就是派這個用處的,「不是我覺得,而是資料證明」。

    現代管理學之父彼得·德魯克說過一句很經典的話:如果你不能衡量它,那麼你就不能有效增長它。如果把它應用在資料領域,就是:如果你不能用指標描述業務,那麼你就無法有效增長它。每一位資料分析師都要有指標體系的概念,報表也好,BI也好,即使機器學習,也是圍繞指標體系建立的。

    下圖就是一個典型的指標體系,描述了使用者從關注產品、下載、乃至最後離開的整個環節。每一個環節,都有資料及指標以查詢監控。

    不同業務背景需要的指標體系不同,但有幾個建立指標的通用準則。這篇文章深入介紹了「如何建立資料分析的思維框架」。你將區分什麼是好指標、什麼是壞指標、比率和比例、指標的結構、指標設立的維度等概念。

    資料分析不是一個結果,而是一個過程。幾乎所有的分析,最終目的都是增長業務。所以比分析思維更重要的是驅動思維落地,把它轉化為成果。

    資料分析思維是常年累月養成的習慣,一週時間很難訓練出來,但這裡有一個縮短時間的日常習慣。以生活中的問題出發做練習。

    這家商場的人流量是多少?怎麼預估?

    上海地區的共享單車投放量是多少?怎麼預估?

    街邊口的水果店,每天的銷量和利潤是多少?怎麼預估?

    這些開放性問題起源於諮詢公司的訓練方法,透過不斷地練習,肯定能有效提高分析思維。另外就是刷各種CaseBook。

    優秀的資料分析師會拷問別人的資料,而他本身的分析也經得起拷問。

    第四part:資料庫

    Excel很容易遇到瓶頸,隨著業務的發展,分析師接觸的資料會越來越多。對大部分人的電腦,超過十萬條資料,已經會影響效能。何況大資料時代就是不缺資料,這時候就需要學習資料庫了。

    即使非資料崗位,也有越來越多的產品和運營被要求使用SQL。

    很多資料分析師戲稱自己是跑SQL的,這間接說明SQL在資料分析中有多核心。從Excel到SQL絕對是處理效率的一大進步。

    教程內容以MySQL為主,這是網際網路行業的通用標準。其實語法差異不大的。

    新手首先應該瞭解表的概念,表和Excel中的sheet類似。「寫給新人的資料庫指南」是一篇入門基礎文章,包括表、ID索引、以及資料庫的安裝,資料匯入等簡單知識。

    SQL的應用場景,均是圍繞select展開。增刪改、約束、索引、資料庫正規化均可以跳過。新手在「SQL,從入門到熟練」教程會學習到最常見的幾個語法,select、where、group by、if、count/sum、having、order by、子查詢以及各種常用函式。

    資料還是分析師薪資資料,它可以和Excel實戰篇結合看,不少原理都是相通的。

    想要快速掌握,無非是大量的練習。大家可以在leetcode上做SQL相關的練習題,難度從簡單到困難都有。「SQL,從熟練到掌握」教程中將會帶領大家去刷一遍。

    join對新手是一個很繞的概念,教程會從圖例講解,逐步提高難度。從一開始的join關聯,到條件關聯、空值匹配關聯、子查詢關聯等。最後完成leetcode中的hard模式。

    如果想要更進一步,可以學習row_number,substr,convert,contact等函式。不同資料平臺的函式會有差異,例如Presto和phpMyAdmin。再想提高,就去了解Explain最佳化,瞭解SQL的工作原理,瞭解資料型別,瞭解IO。知道為什麼union比or的效率快,這已經和不少程式設計師並駕齊驅。

    第五part:統計學

    很多資料分析師並不注重統計學基礎。

    比如產品的AB測試,如果相關人員不清楚置信度的含義和概念,那麼好的效果能意味著好麼?如果看待顯著性?

    比如運營一次活動,若不瞭解描述統計相關的概念,那麼如何判別活動在資料上的效果?可別用平均數。

    不瞭解統計學的資料分析師,往往是一個粗糙的分析師。如果你想要往機器學習發展,那麼統計學更是需要掌握的基礎。

    統計知識會教大家以另一個角度看待資料。如果大家瞭解過《統計資料會撒謊》,那麼就知道很多資料分析的決策並不牢靠。

    在第一篇教程「解鎖資料分析的正確姿勢:描述統計」,會教給大家描述統計中的諸多變數,比如平均數、中位數、眾數、分位數、標準差、方差。這些統計標準會讓新手分析師從平均數這個不靠譜的泥潭中出來。

    箱線圖就是描述統計的大成者,好的分析師一定是慣用箱線圖的常客。

    第二篇「解鎖資料分析的正確姿勢:描述統計(2)」將會結合視覺化,對資料的分佈進行一個直觀的概念講解。很多特定的模型都有自有的資料分佈圖,掌握這些分佈圖對分析的益處不可同日而語。

    直方圖和箱線圖一樣,將會是長久伴隨分析師的利器。

    統計學的一大主要分支是機率論,機率是度量一件事發生的可能性,它是介於0到1之間的數值。很多事情,都可以用機率論解釋,「機率論的入門指南」和「讀了本文,你就懂了機率分佈」都是對其的講解。

    包括貝葉斯公式、二項機率、泊松機率、正態分佈等理論。理論不應用現實,那是無根之木,教程中會以運營活動最常見的抽獎機率為講解,告訴大家怎麼玩。

    其實資料分析中,機率應用最廣泛和最全面的知識點,就是假設檢驗,大名鼎鼎的AB測試就是基於它的。俗話說得好,再優秀的產品經理也跑不過一半AB測試。

    何為假設檢驗?假設檢驗是對預設條件的估計,透過樣本資料對假設的真偽進行判斷。

    產品改版了,使用者究竟喜不喜歡?調研的評分下降了,這是使用者的評價降低了,還是正常的資料波動呢?這些都是可以做假設檢驗的。它可以說是兩面兩篇文章的回顧和應用。

    「資料分析必須懂的假設檢驗」依舊以網際網路場景講解各種統計技巧的應用。假設檢驗並不難,透過Excel的幾個函式就能完成。它的難點在於諸多知識點和業務的結合使用,實際公式不需要掌握的多透徹,瞭解背後的意義更重要。

    統計學是一個很廣闊的領域,包括方差分析,時間序列等,都有各自不同的應用。大家若感興趣,可以去閱讀各類教材,沒錯,教材是學習統計學最優的方式。我這類文章堪堪算入門罷了。

    第六part:業務

    一篇文章讀懂活躍資料;深入淺出,使用者生命週期的運營;獲取新增使用者,運營都應該知道的事;運營的商業邏輯:CAC和CLV;從零開始,構建資料化運營體系;讀懂使用者運營體系:使用者分層和分群,這些都是網際網路運營相關的內容,或多或少涉及了不少業務方面的概念,資料分析人員可以選擇性的挑選部分內容。瞭解業務的資料分析師在職場發展上會更加順利。

    而在「最用心的運營資料指標解讀」中,我嘗試總結了幾個泛網際網路領域的指標和業務模型,它們都是通用的框架。

    產品運營模型:以移動端APP為主體,圍繞AARRR準則搭建起資料框架。包括Acquisition使用者獲取、Activation使用者活躍、Retention使用者留存、Revenue營收、Refer傳播,以及細分指標。

    市場營銷模型:以傳統的市場營銷方法論為基底,圍繞使用者的生命週期建立框架。包括使用者生命週期,生命週期價值、使用者忠誠指數、使用者流失指數、使用者RFM價值等。

    流量模型:從早期的網站分析發展而來,以網際網路的流量為核心。包括瀏覽量曝光率、病毒傳播週期、使用者分享率、停留時間、退出率跳出率等。

    電商和消費模型:以商品的交易、零售、購買搭建而起。包括GMV、客單價、復購率、回購率、退貨率、購物籃大小、進銷存,也包含SKU、SPU等商品概念。

    除了上述的幾個常見模型,資料分析還有其他分支。比如SEO/SEM,雖然可以歸類到流量模型,但它並不簡單。比如財務分析,商業的各種成本支出也需要專人負責。

    在業務知識外,業務層面的溝通也很重要。業務線足夠長的時候,溝通往往成為老大難的問題。

    業務學習沒有捷徑,哪怕掌握了諸多模型,不同行業間的業務壁壘會是分析師們的門檻。金融的各類專有領域知識,電子商務不同產品的特性,這些都會影響到分析報告的質量。

    在早期,新人最好選擇一到兩個領域深入瞭解其業務,然後以此拓展邊界。

    第七part:Python/R

    第七週是最後的學習環節。

    是否具備程式設計能力,是初級資料分析和高階資料分析的風水嶺。資料探勘、BI、爬蟲、視覺化報表都需要用到程式設計。掌握一門優秀的程式語言,可以讓資料分析師升職加薪,迎娶白富美。資料分析領域最熱門的兩大語言是R和Python。R的優點是統計學家編寫的,缺點也是統計學家編寫。涉及各類統計函式和工具的呼叫,R無疑有優勢。但是大資料量的處理力有不逮,學習曲線比較陡峭。

    Python則是萬能的膠水語言,適用性強,可以將分析的過程指令碼化。Pandas、Numpy、SKLearn等包也是非常豐富。

    這裡的教程以Python為主。

    「開始Python的新手教程」將會教大家搭建資料分析環境,Anaconda是功能強大的資料科學工具。Python建議安裝Python3+版本,不要選擇Python2了。

    Python的語法相當簡潔,大家print出第一個hello world頂多半小時。就像在Excel上進行運算一樣方便。

    「開始Python的資料結構」介紹給大家Python的三類資料結構,列表list,元組tuple,以及字典dict。萬變不離其宗,掌握這三種資料結構以及相對應的函式,足夠應付80%的分析場景。函數語言程式設計為Python一大特色,Python自身就提供不少豐富的函式。很多都和Excel的函式相通,掌握起來非常迅速。另外還有控制流,for、while、if,通常配合函式組合使用。

    「瞭解和掌握Python的函式」教大家如何自定義函式,豐富的函式雖然能偷懶,但是不少場景下,還是需要自己動手擼一個。

    能夠調第三方包解決,就使用第三方的函式。如果是一個頻繁使用的場景,而第三方依靠不了,就自己編一個函式。如果是臨時性的場景,寫得粗糙點也無所謂。畢竟分析師的程式碼能力不要求工程師那麼嚴格,所以Python的學習儘量以應用為主,不用像分析師那麼嚴格。

    包、模組和類的概念屬於進階知識,不學也不要緊。

    「Python的資料分析: numpy和pandas入門」介紹了資料分析師賴以生存的兩個包,numpy和pandas,其他Python知識可以不紮實,這兩個最好認真掌握。它是往後很多技能樹的前置要求。

    array,series,dataframe是numpy和pandas的三個資料結構,掌握它們,便算是入門了。後續的兩篇教程都是實戰。

    「用pandas進行資料分析實戰」以分析師的薪資作為實戰資料。Excel、BI、SQL,一路走來,大家想必對它無比熟悉,這也是最後一次使用它了。教程透過Pandas的各類功能,繪製出一副詞雲圖。

    最後一篇教程,將結合以往的知識點,包括業務指標,視覺化,描述統計學等內容。「用Python分析使用者消費行為」,完成它,不說登堂入室,但也是一位合格的資料分析師了。

    它使用某網站的使用者消費資料,計算各類常見指標:使用者的客單價、人均購買量、回購率、復購率、留存率、平均生命週期等,真正做到融會貫通。用一份資料報告作為畢業作品,也是七週系列最好的結業證書了。

    對於沒有技術基礎的同學,第七part最吃力,但已經完成到這一步,不妨讓自己咬咬牙學習下去。

    最後

    如果能夠看完到這裡的同學,相信你是對資料分析真正感興趣的。

  • 6 # 閒雲野鶴一去兮

    大資料時代到來,如何從資料中提取、挖掘對業務發展有價值的、潛在的知識,為決策層的決策提供有力依據,為產品或服務發展方向提供指引,有力推動企業管理的精益化,對於每個企業都意義重大。而這些工作,大多需要資料分析師才能完成,但如何才能系統學習資料分析成為一名合格的資料分析師呢?

    很多學習資料分析的同學都有這樣一種困惑:“為什麼學了那麼多工具,還是不會資料分析?”原因無外乎兩個,一是隻學到了碎片的知識,沒有建立知識之間的聯絡,無法形成自己的知識體系,二是缺乏實踐,導致無法形成“知行合一”的工作技能。

    以資料分析師為例,先看一下國內知名網際網路資料分析師的招聘要求:

    1.計算機、統計學、數學等相關專業本科及以上學歷;

    2.具有深厚的統計學、資料探勘知識,熟悉資料倉庫和資料探勘的相關技術,能夠熟練地使用SQL;

    3.具有三年以上海量資料探勘、分析相關專案實施的工作經驗,參與過較完整的資料採集、整理、分析和建模工作;

    4.對商業和業務邏輯敏感,熟悉傳統行業資料探勘背景、瞭解市場特點及使用者需求,有網際網路相關行業背景,有網站使用者行為研究和文字挖掘經驗尤佳;

    5.具備良好的邏輯分析能力、組織溝通能力和團隊精神;

    6.富有創新精神,充滿激情,樂於接受挑戰。

    前三個屬於硬體要求,一般而言,有專業基礎(計算機、統計學、數學等相關專業)入行需要3個月以上的學習。對於非專業背景的同學,入行的時間可能需要的更長,建議給自己預留6-12月的時間。而要成為一個熟手(企業用工需求最多)則需要2-3年以上的行業經驗。

    基於此,我們需要學習哪些知識呢?

    數學知識

    數學知識是資料分析師的基礎知識。對於初級資料分析師,瞭解一些描述統計相關的基礎內容,有一定的公式計算能力即可,瞭解常用統計模型演算法則是加分。對於高階資料分析師,統計模型相關知識是必備能力,線性代數(主要是矩陣計算相關知識)最好也有一定的瞭解。

    分析工具

    對於初級資料分析師,玩轉Excel是必須的,資料透視表和公式使用必須熟練,VBA是加分。另外,還要學會一個統計分析工具,SPSS作為入門是比較好的。對於高階資料分析師,使用分析工具是核心能力, SPSS/SAS/R至少要熟練使用其中之一。

    程式語言

    對於初級資料分析師,會寫SQL查詢,基本就OK了。對於高階數資料分析師,除了SQL以外,學習Python是很有必要的,用來獲取和處理資料都是事半功倍。當然其他程式語言也是可以的。

    業務經驗

    學習一門技術要和行業靠攏,沒有行業背景的技術如空中樓閣。技術在結合行業之後就能夠獨當一面了,一方面有利於抓住使用者痛點和剛性需求,另一方面能夠累計行業經驗,使用網際網路思維跨界讓你更容易取得成功。大資料是技術工具,最終的應用需要深入理解業務企業的業務場景和商業模式,甚至有人說不懂業務就不要談大資料,可見領域知識的重要性。

  • 7 # EasyV資料視覺化

    就目前我們這個網際網路大資料時代來說,不光人人都是產品經理,連資料分析每個人每天都會碰到。你手機裡的app,你上網的痕跡,你每天都在和各種各樣的資料打交道,都在歸置自己身上的資料標籤和資料資訊。

    這是一個大資料的時代,也是充滿機遇的時代。各個行業都在進行數字化轉型,想依靠資料來競爭,大家都相信得資料者可以得到“天下”,像目前世界500強的企業當中 ,百分之90的公司都建立了資料分析的部門,資料分析這個職業也變得熱門起來。在知乎上一搜資料分析,還蠻多問題是想轉行資料分析行業或者是想從事資料行業,但是不知道怎麼入手的小白們提問的,就和題主一樣,知道資料分析的大概意思,但是不知道該掌握哪些具體知識。

    那麼我作為一個數據視覺化從業者哈~也在工作中碰到不少資料分析的事情,我就結合我自身的經驗,給題主一些建議

    什麼是資料分析?為什麼要做資料分析?處理資料分析時要了解什麼?資料分析師應該具備什麼特質?資料分析師該掌握什麼基礎技能?

    什麼是資料分析?

    資料分析從字面意思來看,即“資料+分析”。

    資料是基礎,分析是結果。資料存在是既定的事實,但是面對無序的資料,人類是無法發現其中蘊含的問題。所以需要透過資料分析師來將資料進行全方位的解析,才能把無序的資料變為能夠使用的資料,為人類提供有貢獻資訊,才能體現出資料的價值所在。

    為什麼要做資料分析?

    資料分析的作用和價值我們可以概括為以下四個方面:

    幫助主體來識別機會、規避責任風險幫助主體診斷現存的問題,亡羊補牢幫助主體評估使用效果,改進營銷措施幫助主體來提高效率,加強企業管理

    處理資料分析時要了解什麼?

    大資料對所有的行業部門都至關重要。但是很顯然,不同的行業資料分析師面對行業資料所需要提取的資料資訊是不同的,所以你需要知道自己的目標行業對資料分析的需求是什麼,比如以下幾個行業 :

    教育大資料

    大資料有助於重新組織課程資料。使用資料結構幫助進行職業預測。定製學習程式。透過演算法在分級系統中使用。

    保險業

    資料結構有助於收集有關個人和公司的資訊演算法有助於獲得客戶見解檢測欺詐當客戶提出索賠時幫助進行威脅對映

    政府產業

    政府從各個部門收集資料,以使用資料結構做出重要決策。必須在國家和全球範圍內製定決策和計劃。必須透過資料結構和演算法來維護和分析資料庫和記錄。它可以幫助他們實施計劃,服務,就業和政策。

    銀行業

    資料結構和演算法有助於防止濫用信用卡和借記卡防止洗錢減輕風險和業務清晰是可能的。

    資料分析師應該具備什麼特質?

    瞭解了你分析資料時候應該注重什麼,接下來就要明白自己作為一個數據分析師應該具備什麼樣的特質,我也為題主總結了幾點:

    強大的分析能力良好的溝通及人際交往能力,才能建立良好的工作關係要具備在技術/非技術人員面前解釋事物的能力有能力自主工作,也可在團隊工作具備時間管理技能專案管理技能,與利益相關者進行規劃、組織和協調專案的方方面面有能力處理壓力和解決問題的能力積極自我激勵,快速學習和創新的人掌握一些列資料分析工具「重點掌握」

    資料分析師該掌握什麼基礎技能?

    入門級的資料分析師,肯定不要好高騖遠,先把Excel玩轉再說,不要以為Excel就是個簡單的表格工具,它的強大你想象不到,我相信知乎上肯定很多有Excel的專業教程,我這裡也不展開詳細的講解。

    當然想成為一個成功的資料分析師單單掌握Excel是肯定不夠的,因為這只是一個數據分析的呈現,真正的資料分析師必須要透過資料現象的檢視來完成對產品的營銷策略、運營策略的最佳化 ,不僅是對業務需要有一定的瞭解,還需要掌握各種資料分析的技能,從能力上來增長自己。

    我根據前人的經驗和網路上大家對資料分析技能的共識總結出以下幾點:

    一個合格的、高階的資料分析師應該掌握的技能:

    統計分析:大數定律、抽樣推測規律、秩和檢驗、迴歸、預測;視覺化輔助工具:excel、BI工具、python大資料處理框架:Hadoop、storm、spark資料庫:SQL、MySql、DB資料倉庫:SSIS、SSAS資料探勘工具:Matlab、R語言、python人工智慧:機器學習挖掘演算法:資料結構、一致性程式語言:Java、python資料視覺化能力:EasyV、DataV、raydata「這個很重要、可以說是一大熱門趨勢」

    以上就是我對題主疑惑 的解答,當然其實想要學習一個新的東西方法論雖然很重要,但是最重要的還是要保持永遠學習的心態,因為世界萬物不斷在變,特別是網際網路行業,資料這種東西太飄忽不定了,不時刻更新自己的知識庫,很容易在前進的路上掉隊,被後浪拍打在沙灘上。今天你是小白,那麼一段時間過後,你必須讓自己成為具有一定優勢的人,才不會被時代淘汰哦~

  • 8 # 南風18176597

    資料分析這件事,如果你要成為資料分析師,那麼你可以去招聘網站看看,對應的職位的需求是什麼,一般來說你就會對應該掌握的知識架構有初步的瞭解。你可以去看看資料分析師職位,企業對技能需求可總結如下: SQL資料庫的基本操作,會基本的資料管理; 會用Excel/SQL做基本的資料提取、分析和展示; 會用指令碼語言進行資料分析,Python or R;

    學資料科學,上cda.cn

  • 9 # 啦啦啦way

    如果是有基礎或者是在校大學生建議可以從簡單的excel和sql開始學,然後進階是視覺化工具,比如tableau和powerbi,接下來就是要多看一些成功的案例了;如果是零基礎轉行建議報班學習,這樣更加高效,CDA資料分析研究院就不錯

  • 10 # 行香子走天涯

    首先,要想清職業目標。明確自己是否真的喜歡資料分析,是否真的想往這方面發展。確定職業方向後,再思考如何入門資料分析。資料分析不同目標的發展路徑不同,入門所需要的技能也不同。

    第一種,在業務相關部門的資料分析人員,最主要的職責是發現業務問題,提供決策支援。瞭解業務也是很重要的優勢,否則,只是就資料說資料,沒有意義。最初級的資料分析人員,會excel的簡單功能,比如透檢視、一般函式公式、VBA等,會用SQL提取資料,最主要的技能是會用PPT寫各種分析報告。這些技能入門還是相對比較容易的,相關資料很多,這裡就不一一列舉。業務部門高階資料分析人員,需要會資料探勘、建模,用於支援業務、最佳化系統流程、提高效率,比如精準銷售、客戶留存、風險控制等。一般情況下,業務部門的資料分析人員不需要會模型的系統實現,由IT相關人員實施。

    第二種,是技術相關部門的資料分析人員。主要職責是支援業務部門的資料提取、資料庫管理、資料探勘建模的系統實現。有的公司也要會寫PPT報告。技術部門的資料分析人員,一般需要計算機相關專業,程式設計能力是必須的。所以,對於無計算機基礎的人員來說,入門相對難些。如果是計算機相關專業或計算機基礎較好的轉成資料分析方向相對比較容易。高階的資料分析人員,可以轉機器學習、人工智慧等方向,現在很熱門,也是未來的發展趨勢。

    不管是哪個方向,統計學的基礎知識是必須的。另外,要找一個好導師,比如,資料分析能力強的上級或同事,可以少走很多彎路。各種技能最關鍵的是要實踐,時刻要找機會鍛鍊自己的技能,形成資料分析思維。

  • 11 # 諸葛io

    週末在重溫兒時經典動漫《名偵探柯南》後發現,柯南利用探索性分析的思維方式完美破案近500起,其實我們在日常工作中也可利用該思維解決難題,今天我們就聊聊資料分析思維。引用一句柯南的名言:去除掉所有不可能的因素,留下來的東西,無論你多麼不願相信,但它就是真相。一、探索性分析進入DT時代,海量雜亂的資料不斷湧來,我們需要理清頭緒,探尋資料間的內在聯絡。在動漫故事中,柯南總是將所有證據/資料蒐集到一起,然後尋找其中的規律,完美地示範瞭如何收集證據和資料並從中獲得洞察。在一個大雪紛飛的深夜,一個女人離奇死亡,沒有目擊證人,身上刀痕參差不齊,儘管連宿在附近房間的柯南本人也沒有在案件發生時發現端倪,但他依然表現得有條不紊。首先,他逐個盤問別墅中的每一位客人,不管對方人設是冷靜縝密、還是神經兮兮。然後,他將這些人的語言與行為如拼拼圖一般,拼在了一起,並理出了一個時間線。在這個過程中,他不斷地思考:哪些資訊能支援自己的假設?哪些資訊互相矛盾?我還需要回答什麼問題?之後我需要做什麼,才能回答這些問題?——這就是所謂的探索性分析。探索性資料分析(EDA)是資料分析過程的第一部分。 在這個階段需要完成以下幾個重要:弄清楚資料是什麼;建立你想問的問題以及如何表達它們,找到最好的展示和洞察資料的方式,以得出重要的見解。探索性資料分析更重視從資料中發現數據分佈的模式(Patten)和提出新的假設。我們在探索—尋找線索,就像柯南那樣,透過定量和視覺化的方法,不僅梳理出趨勢和模式,還能發現偏離模型,離群值和意想不到的結果,繼而幫助我們提出問題,找到下一步採取的措施。一切發現符合假設的、不符合假設的都是為了最後一步一步走向真相二、如何讓資料分析更有效果在資料分析時,我們需要了解什麼樣的資料展示才是對結果的最好展示,如果單純地去看一個數據是沒有太大意義的,而且資料本身有時也具有欺騙性,比如:從運營同學那裡得到日新增使用者數1W,那麼單純看這個資料沒有什麼意義,我們可以說這個資料很好,因為看上去很大,但是你可能沒有看到同期的資料,有可能昨天的資料達到了2W,所以,對比才能更好的展現資料的可用性,得到的比率是最具有說服力的。另外,透過對比不同的渠道,對比不同的版本,對比不同的使用者群等不同維度的資料,都可以從側面反映出這個資料的真實情況。同樣的,資料不是一成不變的,需要動態檢視,單純只看一個點的資料情況是沒有意義的,比如我們在資料中加入時間維度觀察資料整體的變化趨勢,這樣才能更為客觀的判斷產品的健康程度。三、如何成為具有資料思維的運營人1、分析要有深度深度是指資料分析對企業的支援程度,當企業面臨決策難題時,資料分析若要有深度,則要全面回答3個問題:企業的現狀和問題是什麼?問題為什麼會產生?企業該怎麼辦?這3個問題若未答全,則分析的深度就會有所缺失。缺失深度,也就只看到表面的資料累計卻看不到本質的問題。可以從問題的本質出發,從“是什麼”“為什麼”“怎麼辦”3個角度思考。提問是思考的翅膀,善於提問,勤于思考,我們就能達到資料分析的深度,只有不斷的鍛鍊和學習才能在深度深耕。2、資料要有可信度可信度是指分析結果的可靠程度。要有信度,需滿足三個條件:對比要可比、差異要顯著、描述要全面。-對比要可比基礎資料基數要具有可比性,不能將基礎資料與其他資料進行混合對比,缺少對比的可能性。-差異要顯著在精細化營銷時,往往透過資料來理解不同使用者的差異;根據差異性制定運營策略。-描述要全面當刻畫一組資料時,不僅要描述這組資料的一般水平,還要考慮到這組資料的波動水平。如果波動很大,一般水平對資料總體的代表性就會很差。只考慮一般水平而不考慮波動和差異,會使資料的可信度大大縮水。所以,資料分析要有深度和寬度,以兩種不同角度分析問題,結果才更具有說服力。3、分析要有效度效度,指的是效率和速度。資料分析速度越快、成本越低,則效度越高,成效越顯著。4、分析要有通度在資料分析前要找到分析的目標,帶著問題去分析,也就是了解前期資料分析的需求,後期需要做資料彙報才具有針對性,目的性。溝通的順暢度即通度,通度高低直接影響資料價值的發揮水平。PS:如何提高溝通效率不影響進度,有“三用三不用”原則:能用圖表就不用資料;能用圖片就不用文字;能用動態呈現就不用靜態展示。使用者行為路徑之太陽圖-能用圖表就不用資料:一圖頂千言,圖比資料跟具有說服力。-能用圖片就不使用文字:文字多了就容易誤導使用者,同時也不夠形象表達目標。只需要點選就能快速分析轉化的SEM報表-能用動態呈現不用靜態展示:在表達事物隨著時間的變化而變化時,動態呈現能還原真實,比靜態展示更能讓人產生身臨其境之感。版本迭代 快速衡量四、如何將資料落地資料運營是運營人員將資料結果轉化成運營策略,用資料做決策/制定策略,既要知道分析過的資料結果能夠證明什麼,也要知道資料做不了什麼;個人的認知、經驗是有限的,不能過於誇大也不能過於激進。此外,對資料的有效分析利用與運營者和團隊都息息相關,自上而下的推動和引導是最好的結果,高層有資料化運營的戰略和意識、管理層有資料化運營的指導經驗,執行層能將資料化運營的落地,在團隊工作中注入資料思維的基因,培養使用資料結果判斷總結的習慣,透過專門系統的培訓推動企業的資料標準化。

    最後,資料分析工具和各類模型的使用,也是資料分析技能基本要求,比如:多維度分析、交叉分析、海盜模型、使用者分層模型、RFM模型、 AB測試等。

  • 12 # 濼安姑娘

    資料分析是一項龐雜的任務,我之前在“東軟平臺產品”官網看過DataViz這個資料視覺化分析工具,感覺還挺不錯的

  • 13 # 清華文墨的施工與管理

    總體來說,先學基礎,再學理論,最後是工具

    1、學習資料分析基礎知識,包括機率論、數理統計

    2、你的目標行業的相關理論知識。比如金融類的,要學習證券、銀行、財務等各種知識。

    3、學習資料分析工具,如sas、spss,甚至excel也可以(資料分析模組的功能很強大)

    切記,第一步是必不可少的,是資料分析的基礎。

  • 14 # 大資料研習社

    資料分析師是一個綜合的崗位,除了熟悉業務,還需要掌握多項技能,例如Excel、SQL、統計學及SPSS,R/Python,海量資料的情況下需要在大資料平臺下分析,所以還需要掌握Hadoop相關的技術,如Hive、HBase等。

    由於涉及的技術較多,一下都學完不現實,所以,學習資料分析建議分成三個階段進行:

    1、商業資料分析

    2、涉及演算法的資料探勘

    3、大資料平臺下的分析

    階段一:商業資料分析

    對於大部分公司來說,資料量不是很龐大,資料分析透過Excel,SPSS等工具就可以搞定,此時需要掌握的技能有Excel、MySQL、統計學及SPSS。

    學完這些技能後,可以去很多公司做一名商業資料分析師,支撐市場部、運營部等的資料分析工作。

    1、Excel

    Excel這部分需要學習的內容有3塊:Excel公式、資料透視表及Excel資料圖表。

    說明:關於每一塊需要掌握哪些技能,可以看我的另外一個回答:零基礎如何入門資料分析?

    關於Excel的書籍、教程有很多,找幾本經典來學習一下,重要的是練習,看完教程後,一定要自己動手做一遍,才有可能掌握。

    推薦書籍:

    《誰說菜鳥不會資料分析》系列

    《Excel圖表之道:如何製作專業有效的商務圖表》

    《別怕,Excel VBA其實很簡單》

    2、MySQL

    作為資料分析師,需要跟資料打交道,所以懂點SQL也是必要的。

    關於SQL的書籍、免費資料也有很多,這裡推薦2本,重點仍然是多動手練習。

    推薦書籍:

    入門書籍:《MySQL必知必會》,人郵出版社。

    進階書籍:《SQL進階教程》,[日]MICK。

    3、統計學

    統計學是必須的,不懂統計學根本算不上資料分析師,具體內容有:

    1、統計學:統計學基礎、引數估計、假設檢驗、方差分析、線性迴歸、時間序列。

    2、多元統計分析:聚類分析、主成分分析及因子分析。

    從上面可以看到,統計學學習可以分成兩個階段進行,統計學和多元統計分析,重點是多動手做題、思考。

    推薦書籍:

    第一階段,推薦書籍,賈俊平的《統計學》,人大出版社;

    第二階段,推薦書籍,何曉群的《多元統計學分析》,人大出版社。

    PS:數學零基礎的童鞋,可以先看下《Head First 統計學》(又名《深入淺出統計學》)

    4、SPSS

    因為統計學很有些分析方法透過Excel就可以搞定;有些不行,必須透過其他工具才能搞定,例如多元線性迴歸、聚類分析、主成分分析及因子分析,都需要用到SPSS。

    在掌握了統計學的基礎上,在學習SPSS是很容易的,因為SPSS只是一個工具而已。

    推薦書籍:

    《統計分析與SPSS的應用》,薛微,人大出版社。

    《PASW/SPSS Statistics中文版統計分析教程》,電子工業出版社。

    附:資料分析必備SPSS主要知識點。

    階段二:涉及演算法的資料探勘

    有些資料分析工作,需要透過統計算法及機器學習演算法來進行,所以還需要掌握Python或者R。

    掌握了R資料分析或者Python資料分析技能後,可以去一些公司做基於統計算法或者機器學習演算法的資料分析及挖掘工作。

    1、Python

    Python資料分析主要包括Python語法基礎、常用資料分析擴充套件包Numpy、Pandas、Matplotlib等、Python資料探索及預處理、Python機器學習等。

    限於篇幅,具體需要掌握哪些技能這裡就不詳細列出了,可以去看我的另外一個回答:怎麼學習python資料分析?

    推薦書籍:

    《Python程式設計從入門到實踐,[美]Eric Matthes》

    《利用Python進行資料分析,Wes McKinney,機械工業出版社》

    《Python機器學習基礎教程》,[德]Andreas C. Müller [美]Sarah Guido

    2、R

    R資料分析包括R語言基礎、R資料視覺化、R資料預處理、R統計分析及R機器學習。

    附:資料分析必備R語言知識點。

    推薦書籍:

    《R語言初學者指南》,[英]Alian

    F.Zuur

    等,西安交通大學出版社

    《R語言實戰(第2版)》,Robert

    I.Kabacoff

    ,人民郵電出版社

    階段三:大資料平臺下的分析

    在一些大公司,海量資料的情況下,資料都是執行在大資料平臺上(Hadoop),還需要懂MapReduce、Hive、HBase資料倉庫等技術。當然這些可以在工作學習、積累。

    回答完畢!

  • 15 # 散戶和大戶的區別

    現在發達城市北上廣,已經開始用大資料,運做基金了。而且門檻很高,必須金融和計算機的本科以上人員,研究生擇優錄取。

    可見大資料,發展的力度。很多人不知道大資料怎麼交易股票,這這裡簡單說下,現在好多券商軟體支援,大資料自動化交易,也就是說,當你編寫好自己的預期策略後,由程式根據你的策略實行,自動化交易。現在名聲僅次於巴菲特的詹姆斯.西蒙斯,就是大資料量化交易的先驅,他名下的大獎章基金,就是根據大資料量化交易執行。

    大資料量化交易,可以實現。一天成百上千次此交易,只要資金允許。這也是發達發達城市為什麼著重研究的物件。還有大資料是未來的趨勢。電腦在對市場熱度的分析,要強於人工識別。但是論單個交易,人工肯定強於電腦,但是從現在的基金規模來看。電腦交易是主要趨勢。不管多厲害的基金經理,精力都是有限的。

    目前的大資料都是藉助python為主要語言編寫的,感興趣的可以看看相關方面的學習。券商對自動化交易的資金,一般是5w門檻。所以,隨著市場的發展。大資料量化交易,會慢慢普及。

  • 16 # 刺蝟大學

    小白學習資料分析經常會遇到以下問題:

    資料要從哪些渠道獲取?

    資料分析有什麼方法論嗎?

    分析資料要用到哪些工具?

    需要分析哪些資料?

    要不要學習Excel?SQL?Python?

    所以,在學習資料分析之前,你需要破解這幾個誤區:

    1.堆砌資料不等於會資料分析

    資料分析,資料和分析缺一不可,簡單的資料堆砌沒有任何價值。

    2.學習資料分析需要已經有一定的計算機基礎

    不需要,有最基本的數學基礎就行,從零開始學完全沒問題。

    3.資料分析不等於大資料分析

    資料分析和大資料分析有很多差異,根本區別是分析的思維與分析所用工具的不同。資料分析可以說是通用技能,大資料分析則有一定門檻。

    其實,資料分析的學習,也沒那麼簡單,也沒那麼難。不要”唯資料論“,也不要“無視資料”,只有真正理解資料背後的價值所在,才能學好資料分析。

  • 17 # 愛資料愛分析

    1、資料查詢、報表開發

    2、業務分析報告(偏總結、對已發生的事情進行資料回顧、評估總結)

    3、業務洞察(偏探索,為未來的業務發展、產品改進方向提供決策支援)

    4、資料工程建模(偏挖掘演算法)

    你看一下上面資料分析師的日常工作(招聘網站上找找分析師日常工作的表述及對技能的要求):

    一、資料查詢是最基礎的工作,裡面的2和3也需要用到這個,所以SQL是進入網際網路公司最基礎的技能(當然入門也比較簡單,網上找找資料學一週就可以搞定了);當資料查詢的需求比較多的時候,自然需要開發報表的方式來提升的效率(有些公司是透過數倉部門來實現,有些是透過資料分析師來實現的,但是分析師最好也要具備這方面的能力)。

    二、有了基本統計資料,結合業務活動、產品模組更新,一般會要求分析*活動的效果、產品**模組更新之後的效果好壞(分析師的工作內容,就是SQL+EXCEL+PPT)

    很多分析師都止步於此了,一般工作三五年的人很容易在此環節受到瓶頸限制,多年沒法進步。

    三、有了基本的統計資料,結合對業務、產品的洞察,給到業務人員(運營、產品人員)下一步發展的策略建議(需要分析師具備橫向擴充套件的學習能力,懂運營、懂產品、懂業務;題主想轉金融資料分析,如果具備較強的金融功底,則前景比較廣闊)

    四、前面的方向基本更偏常規統計+業務知識;還有一種就是更偏技術層面,例如預測(未來的使用者、收入等趨勢預測)、聚類、分類等演算法,需要了解演算法原理、工具使用(如Python、R,現在SAS、SPSS已經用的越來越少,題主比較年輕,早點往這些網際網路開源工具轉型)

    所以入門的方式很簡單,從打雜開始(資料查詢、報表開發)慢慢逐步進化到業務洞察、資料建模。

  • 18 # 小小小小曉LV

    作為一個數據分析師,結合工作我談談我自己的看法。

    首先,做資料分析首先得學習資料庫,比較資料是最基本的資源。

    其次,是資料分析相關的理論,為建模或者進行進一步分析打基礎。代數和統計知識要求較高。

    再次,學習各種軟體。Excel是最最最基本的工具,各種函式、外掛的學習;SPSS、R至少掌握一種吧,個人認為SPSS更容易上手,當然每個行業有自己相對認可的工具;Python建議掌握,很強大的工具,清洗資料、建模、視覺化、爬蟲等等都可以完成。最後建議掌握一個視覺化軟體比如Tableau。當然分析完需要寫報告,不管文字功底、概括能力、審美能力,都是有要求的。

    最後,模型學習,這個沒的說,要知道每個模型是用來幹什麼,比如決策樹做畫像是經常會用到的。

    特別想說一點,資料分析不能只看資料,還要相對了解業務,脫離業務的資料分析什麼都不是。

    希望對您有幫助。

  • 19 # spssau

    推薦先從資料分析思維、分析方法選擇、資料分析的應用開始學習,這樣上手會非常快,而且循序漸進,最開始學習的時候也不會有太大壓力。

    對於學習而言,任何知識都是從零開始慢慢掌握起來的,所以不要有壓力,統計學實際上並不是我們想象中那種難啃的“硬骨頭”。其次,入門書的選擇(或者說是選擇學習思路更為恰當)還是比較重要的,一本易懂有趣實用的書籍就好比是一位風趣有料的名師,有了它就會大大提高初學者對這門學科的興趣,對學科的理解也會提高一大步!正所謂好的開始是成功的一半。

    下面是具體的學習方法:

    在學習資料分析的過程中,建議大家學習資料分析的路徑如下共三步曲:

    一、基本統計概念掌握、資料型別的識別;二、研究方法的選擇;三、研究的注意事項

    第一步:統計基本概念及資料識別

    瞭解基本統計名詞概念,可有助於理解分析結果指標意義。

    P值:顯著性值或Sig值,描述某事情發生的機率

    資料型別:是一切研究的基石,也是資料研究思維的最基本且最關鍵的思維。在這裡我們把所有資料區分為兩類,分別是定類和定量資料。

    定類資料即是分類的意思,可以計算百分比;定量資料是指數字可以對比大小,因而可以進行平均值計算。如果有的資料同時可以計算百分比,也可以計算平均值,此時就結合實際研究情況,將其似著定類或者定量資料。

    SPSSAU將資料分為兩類,但在其它領域,或者學科時,資料型別的劃分並不完全相同,而且稱呼均不統一。這也給研究人員帶來一定困惑,下表列出不同稱呼時與這兩類資料型別的對應關係。

    稱呼各不相同,但實際意義均一致,只需要理解一句話即“算百分比時叫定類資料,算平均值時叫定量資料”。

    第二步:研究方法的選擇

    資料型別確認後,此時即可理解資料分析方法的選擇。我們可以把任意變數間的關係看成X和Y的關係,除了區分資料型別,還要區分X和Y。比如性別和是否吸菸的關係,X是性別,Y為是否吸菸。X和Y均為定類資料。此時則應該選擇“交叉卡方”分析。

    第三步:研究注意事項

    資料正態性特質:很多研究方法都是基於正態性這一前提,如果不滿足時則可能使用其它方法。資料編碼、生成變數等資料處理功能的使用。很多研究方法使用之前,是需要進行資料處理。比如問卷研究中1個維度對應5個量表題,此時可以使用生成變數的平均值功能先得到一個概括性的變數。或者有的研究方法需要進行資料標準化處理等。

    綜上所述,如果可以區分資料型別,並且瞭解研究目的,則可以選擇出科學的研究方法進行研究。具體每個研究方法詳細分析建議,也可以參考SPSSAU的智慧分析。

  • 20 # 吊車尾學院一木木老師

    技能一:統計學基礎、常用模型理論、分析方法

    資料分析就是要把隱沒在一大批看來雜亂無章的資料中的資訊集中、萃取和提煉出來,以找出所研究物件的內在規律,從而幫助人們進行風險評估、收益率分析、銷售預測等。因此,資料分析需要掌握相應的演算法,如統計學、決策樹、線性迴歸、統計時間序列模型等。

    技能二:MySQL資料庫軟體

    SQL是一種用以實際操作資料庫的語言,訪問、更新和操作資料庫中的資料資訊;而MySQL是一個應用MYSQL儲存、查詢、改動和管理資料庫的RDBMS。資料庫非常複雜,需要學習MySQL的相關知識,如資料庫的基礎知識、MySQL基本查詢語句、MySQL索引等內容。

    技能三:Python基礎知識、爬蟲、科學計算包

    資料的預處理、視覺化都可以透過Python實現。另外,如果行業特性要求獲取外部一些非公開的資料,還需要透過Python爬蟲實現。需要掌握的Python科學計算包一般包括pandas(資料分析處理庫)、numpy(科學計算庫)、matplotlib(資料視覺化庫)、scikit-learn(資料預測庫)等。

    當學完以上三個技能之後,就要進入實踐部分了。

    大家可以去自行找一些資料進行分析,隨著實踐的增多,簡單的內容會被輕鬆消化,複雜的問題會帶領著你瞭解更高階的資料分析方法!

  • 中秋節和大豐收的關聯?
  • 為什麼我總感覺經濟越發達,創業成功的機率越小,機會越少?