-
1 # 資料分析jacky
-
2 # 資料分析不是個事兒
對於入門小白,建議從excel工具入手
學習excel也是一個循序漸進的過程
基礎的:簡單的表格資料處理、列印、查詢、篩選、排序函式和公式:常用函式、高階資料計算、陣列公式、多維引用、function視覺化圖表:圖形圖示展示、高階圖表、圖表外掛資料透視表、VBA程式開發函式和資料透視表是兩個重點:
製作資料模板必須掌握的excel函式
日期函式:day,month,year,date,today,weekday,weeknum。日期函式是做分析模板的必備,可以用日期函式來控制資料的展示,查詢指定時間段的資料。數學函式:product,rand,randbetween,round,sum,sumif,sumifs,sumproduct統計函式:large,small,max,min,median,mode,rank,count,countif,countifs,average,averageif,averageifs。統計函式在資料分析中具有舉足輕重的作用,求平均值,最大值,中位數,眾位數都用得到。查詢和引用函式:choose,match,index,indirect,column,row,vlookup,hlookup,lookup,offset,getpivotdata。這幾個函式的作用不用多說,特別是vlookup,不會這個函式基本上覆雜報表寸步難行。文字函式:find,search,text,value,concatenate,left,right,mid,len。這幾個函式多半用在資料整理階段使用。邏輯函式:and,or,false,true,if,iferror(以上學會,基本能秒殺90%的辦公室白領。)
資料透視表
資料透視表的作用是把大量資料生成可互動的報表,資料透視表具有這樣一些重要功能:分類彙總、取平均、最大最小值、自動排序、自動篩選、自動分組;可分析佔比、同比、環比、定比、自定義公式。
對於浸淫多年的表哥表姐現實中,取數或報表+EXCEL+PPT似乎還是主流形式。
工具上,無論是業務人員還是分析人員,都可以透過自動取數工具或者BI工具來製作報表,減少重複操作的時間。
其次,增加與業務人員的溝通,充分了解並挖掘需求,當你的業務水平和他們差不多甚至更高時,自然而然知道真實的需求是什麼了。
最後,站在更高角度上,技術上,報表工作可以用專業的報表工具,比如FineReport來替代。報表的基本粒度就是指標,可梳理出企業的基本指標體系,從經營分析的角度去做報表,把報表的工作標準化,降低報表的冗餘,避免動不動就做一張報表。標準化包括指標分類,指標命名,業務口徑,技術口徑,實現方式等等。其實,最終目的是實現報表資料一致性,減少重複報表開發,降低系統開銷的戰略性舉措。
業餘時間可以拓展自己的知識面,往上下游發展,補充數理統計知識,學習R、Python語言,都是提升自己的很好方式。
-
3 # 萬事通130432001
視覺化是連線使用者和資料的橋樑,是我們像使用者展示我們的成果的一種手段,因此視覺化並不是非常特殊的研究領域,它可以有非常廣泛的應用和建立途徑,作為非計算機專業人員,你可以藉助現有的程式和軟體,根據自己的資料特點,繪製清楚直觀的圖表,Excel,SPSS,Google,pubic,Data等,一些部落格也會介紹常用的視覺化工具,比如22個免費的資料視覺化和分析工具推薦,如果你有一定的程式設計基礎可以嘗試使用一些程式設計或者數學工具來進行自定義圖表繪製,更進一步你就可以用程式語言來寫自己的視覺化系統了,這樣你就會有很自由的發揮空間和操控能力,資料處理表現形式,互動方式等都可以有很自主的設計,入門的話你可以去看看EdwardTufte的一些書籍
-
4 # 西線學院
說到視覺化,就不得不說一下大資料,畢竟視覺化是解決大資料的一種高效的手段,而如今人人都在談論大資料,大資料 ≠ 有資料 ≠ 資料量大, 離譜的是,如今就連賣早點的覺得自己能統計每天賣出的種類,都敢說自己是搞大資料。
時間推移到 2009 年,“大資料” 開始才成為網際網路技術行業中的熱門詞彙。對“大資料”進行收集和分析的設想,起初來自於世界著名的管理諮詢公司麥肯錫公司;麥肯錫公司看到了各種網路平臺記錄的個人海量資訊具備潛在的商業價值,於是投入大量人力物力進行調研,在 2011 年 6 月釋出了關於“大資料”的報告,該報告對“大資料”的影響、關鍵技術和應用領域等都進行了詳盡的分析。麥肯錫的報告得到了金融界的高度重視,而後逐漸受到了各行各業關注。
定義
資料視覺化的目的其實就是直觀地展現資料,例如讓花費數小時甚至更久才能歸納的資料量,轉化成一眼就能讀懂的指標;透過加減乘除、各類公式權衡計算得到的兩組資料差異,在圖中顏色敏感、長短大小即能形成對比;資料視覺化是一個溝通複雜資訊的強大武器。透過視覺化資訊,我們的大腦能夠更好地抓取和儲存有效資訊,增加資訊的印象。但如果資料視覺化做的較弱,反而會帶來負面效果;錯誤的表達往往會損害資料的傳播,完全曲解和誤導使用者,所以更需要我們多維的展現資料,就不僅僅是單一層面。
背景
我們可以想一想,在大資料沒有出現之前,已經有很多對資料加以視覺化的經典應用,比如股市裡的 K 線了,其試圖以視覺化的目的來發現某些規律,資訊可以用多種方法來進行視覺化,每種視覺化的方法都有著不同的著重點,特別是在大資料時代,當你打算處理資料時。首先要明確並理解的一點是:你打算透過資料向你的使用者講述怎樣的故事,資料視覺化之後又在表達著什麼?
透過這些資料,能為你後續的工作做哪一些指導性工作,是否能幫觀者正確的抓住重點,瞭解行業動態?瞭解這一點之後,你便能選擇合理的資料視覺化方法,高效傳達資料。
當我們能夠充分理解資料,並能夠輕易向他人解釋資料時,資料才有所價值;我們的讀者可以透過視覺化互動或其他資料使用方式來探尋一個故事的背後發生了什麼,因此,資料視覺化至關重要。
資料的特性
資料視覺化,先要理解資料,再去掌握視覺化的方法,這樣才能實現高效的資料視覺化,下面是常見的資料型別,在設計時,你可能會遇到以下集中資料型別:
量性:資料是可以計量的,所有的值都是數字
離散型:數字類資料可能在有限範圍內取值。例如:辦公室內員工的數目
持續性:資料可以測量,且在有限範圍內,例如:年度降水量
範圍性:資料可以根據編組和分類而分類,例如:產量銷售量
視覺化的意義是幫助人更好的分析資料,也就是說他是一種高效的手段,並不是資料分析的必要條件;如果我們採用了視覺化方案,意味著機器並不能精確的分析。當然,也要明確視覺化不能直接帶來結果,它需要人來介入來分析結論。
在大資料時代,視覺化圖表工具不可能“單獨作戰”,而我們都知道大資料的價值在於資料探勘,一般資料視覺化都是和資料分析功能組合,資料分析又需要資料接入整合、資料處理、ETL等資料功能,發展成為一站式的大資料分析平臺。
工具——程式語言
R 經常被稱為是“統計人員為統計人員開發的一種語言”。如果你需要深奧的統計模型用於計算,可能會在 CRAN 上找到它――你知道,CRAN 叫綜合R檔案網路(Comprehensive R Archive Network)並非無緣無故。說到用於分析和標繪,沒有什麼比得過 ggplot2。而如果你想利用比你機器提供的功能還強大的功能,那可以使用 SparkR 繫結,在 R 上執行 Spark。
Scala
Scala 是最輕鬆的語言,因為大家都欣賞其型別系統。Scala在JVM上執行,基本上成功地結合了函式正規化和麵向物件正規化,目前它在金融界和需要處理海量資料的公司企業中取得了巨大進展,常常採用一種大規模分散式方式來處理(比如Twitter和LinkedIn)。它還是驅動Spark和Kafka的一種語言。
Python
Python 在學術界當中一直很流行,尤其是在自然語言處理(NLP)等領域。因而,如果你有一個需要 NLP 處理的專案,就會面臨數量多得讓人眼花繚亂的選擇,包括經典的 NTLK、使用 GenSim 的主題建模,或者超快、準確的 spaCy。同樣,說到神經網路,Python 同樣遊刃有餘,有 Theano 和 Tensorflow;隨後還有面向機器學習的 scikit-learn,以及面向資料分析的 NumPy 和 Pandas。
Java
Java 可能很適合你的大資料專案。想一想 Hadoop MapReduce,它用 Java 編寫。HDFS 呢?也用 Java 來編寫。連 Storm、Kafka 和 Spark 都可以在 JVM 上執行(使用 Clojure 和 Scala),這意味著 Java 是這些專案中的“一等公民”。另外還有像 Google Cloud Dataflow(現在是 Apache Beam)這些新技術,直到最近它們還只支援 Java。
視覺化框架
Echart.js
D3.js
Highchart.js
Antv.js
合理的視覺化
我將視覺化圖表分為以下幾類:
每個視覺化圖表的型別以一個合理圖表的呈現的形式來舉例說明,(該部分總結自 Antv)。
比較類
比較類顯示值與值之間的不同和相似之處。 使用圖形的長度、寬度、位置、面積、角度和顏色來比較數值的大小, 通常用於展示不同分類間的數值對比,不同時間點的資料對比。
柱形圖
柱狀圖有別於直方圖,柱狀圖無法顯示資料在一個區間內的連續變化趨勢。柱狀圖描述的是分類資料,回答的是每一個分類中“有多少?”這個問題。 需要注意的是,當柱狀圖顯示的分類很多時會導致分類名層疊等顯示問題。
適合的資料:一個分類資料欄位、一個連續資料欄位
功能:對比分類資料的數值大小
資料與圖形的對映:分類資料欄位對映到橫軸的位置
連續資料欄位對映到矩形的高度
分類資料也可以設定顏色增強分類的區分度
適合的資料條數:不超過 12 條資料
分佈類
分佈類顯示頻率,資料分散在一個區間或分組。 使用圖形的位置、大小、顏色的漸變程度來表現資料的分佈, 通常用於展示連續資料上數值的分佈情況。
散點圖
散點圖也叫 X-Y 圖,它將所有的資料以點的形式展現在直角座標系上,以顯示變數之間的相互影響程度,點的位置由變數的數值決定。
透過觀察散點圖上資料點的分佈情況,我們可以推斷出變數間的相關性。如果變數之間不存在相互關係,那麼在散點圖上就會表現為隨機分佈的離散的點,如果存在某種相關性,那麼大部分的資料點就會相對密集並以某種趨勢呈現。資料的相關關係主要分為:正相關(兩個變數值同時增長)、負相關(一個變數值增加另一個變數值下降)、不相關、線性相關、指數相關等,表現在散點圖上的大致分佈如下圖所示。那些離點叢集較遠的點我們稱為離群點或者異常點。
適合的資料:兩個連續資料欄位
功能:觀察資料的分佈情況
資料與圖形的對映:兩個連續欄位分別對映到橫軸和縱軸。
適合的資料條數:無限制
備註:可更具實際情況對點的形狀進行分類欄位的對映。
點的顏色進行分類或連續欄位的對映。
流程類
流程類顯示流程流轉和流程流量。 一般流程都會呈現出多個環節,每個環節之間會有相應的流量關係,這類圖形可以很好的表示這些關係。
漏斗圖
漏斗圖適用於業務流程比較規範、週期長、環節多的單流程單向分析,透過漏斗各環節業務資料的比較能夠直觀地發現和說明問題所在的環節,進而做出決策。漏斗圖用梯形面積表示某個環節業務量與上一個環節之間的差異。漏斗圖從上到下,有邏輯上的順序關係,表現了隨著業務流程的推進業務目標完成的情況。
漏斗圖總是開始於一個100%的數量,結束於一個較小的數量。在開始和結束之間由N個流程環節組成。每個環節用一個梯形來表示,梯形的上底寬度表示當前環節的輸入情況,梯形的下底寬度表示當前環節的輸出情況,上底與下底之間的差值形象的表現了在當前環節業務量的減小量,當前梯形邊的斜率表現了當前環節的減小率。 透過給不同的環節標以不同的顏色,可以幫助使用者更好的區分各個環節之間的差異。漏斗圖的所有環節的流量都應該使用同一個度量。
圖表型別:漏斗圖
適合的資料:一個分類資料欄位、一個連續資料欄位
功能:對比分類資料的數值大小
資料與圖形的對映:分類資料欄位對映到顏色
連續資料欄位對映到梯形的面積
適合的資料條數:不超過12條資料
佔比類
佔比類顯示同一維度上佔比關係。
餅圖
餅圖廣泛得應用在各個領域,用於表示不同分類的佔比情況,透過弧度大小來對比各種分類。餅圖透過將一個圓餅按照分類的佔比劃分成多個區塊,整個圓餅代表資料的總量,每個區塊(圓弧)表示該分類佔總體的比例大小,所有區塊(圓弧)的加和等於 100%。
適合的資料:列表:一個分類資料欄位、一個連續資料欄位
功能 對比分類資料的數值大小
資料與圖形的對映:分類資料欄位對映到扇形的顏色
連續資料欄位對映到扇形的面積
適合的資料條數:不超過 9 條資料
區間類
區間類顯示同一維度上值的上限和下限之間的差異。 使用圖形的大小和位置表示數值的上限和下限,通常用於表示資料在某一個分類(時間點)上的最大值和最小值。
儀表盤
儀表盤(Gauge)是一種擬物化的圖表,刻度表示度量,指標表示維度,指標角度表示數值。儀表盤圖表就像汽車的速度表一樣,有一個圓形的錶盤及相應的刻度,有一個指標指向當前數值。目前很多的管理報表或報告上都是用這種圖表,以直觀的表現出某個指標的進度或實際情況。
儀表盤的好處在於它能跟人們的常識結合,使大家馬上能理解看什麼、怎麼看。擬物化的方式使圖示變得更友好更人性化,正確使用可以提升使用者體驗。
適合的資料:一個分類欄位,一個連續欄位
功能 對比分類欄位對應的數值大小
資料與圖形的對映:指標對映到分類欄位,指標的角度對映連續欄位
適合的資料條數:小於等於3
關聯類
關聯類顯示資料之間相互關係。 使用圖形的巢狀和位置表示資料之間的關係,通常用於表示資料之間的前後順序、父子關係以及相關性。
矩形樹圖
矩形樹圖由馬里蘭大學教授 Ben Shneiderman 於上個世紀90年代提出,起初是為了找到一種有效瞭解磁碟空間使用情況的方法。 矩形樹圖適合展現具有層級關係的資料,能夠直觀體現同級之間的比較。一個Tree狀結構轉化為平面空間矩形的狀態,就像一張地圖,指引我們發現探索資料背後的故事。
適合的資料:帶權的樹形資料
功能 表示樹形資料的樹形關係,及各個分類的佔比關係
資料與圖形的對映:樹形關係對映到位置,佔比數值資料對映到大小。設定顏色增強分類的區分度
適合的資料條數:大於5個分類
趨勢類
趨勢類分析資料的變化趨勢。 使用圖形的位置表現出資料在連續區域上的分佈,通常展示資料在連續區域上的大小變化的規律。
折線圖
折線圖用於顯示資料在一個連續的時間間隔或者時間跨度上的變化,它的特點是反映事物隨時間或有序類別而變化的趨勢。
適合的資料:兩個連續欄位資料,或者一個有序的分類一個連續資料欄位
功能 觀察資料的變化趨勢
資料與圖形的對映:兩個連續欄位分別對映到橫軸和縱軸
適合的資料條數:單條線的資料記錄數要大於2,但是同一個圖上不要超過5條折線
時間類
時間類顯示以時間為特定維度的資料。 使用圖形的位置表現出資料在時間上的分佈,通常用於表現資料在時間維度上的趨勢和變化。
面積圖
面積圖又叫區域圖。 它是在折線圖的基礎之上形成的, 它將折線圖中折線與自變數座標軸之間的區域使用顏色或者紋理填充,這樣一個填充區域我們叫做面積,顏色的填充可以更好的突出趨勢資訊,需要注意的是顏色要帶有一定的透明度,透明度可以很好的幫助使用者觀察不同序列之間的重疊關係,沒有透明度的面積會導致不同序列之間相互遮蓋減少可以被觀察到的資訊。
適合的資料:兩個連續欄位資料
功能 觀察資料變化趨勢
資料與圖形的對映:兩個連續欄位分別對映到橫軸和縱軸
適合的資料條數:大於兩條
地圖類
地圖類顯示地理區域上的資料。 使用地圖作為背景,透過圖形的位置來表現資料的地理位置, 通常來展示資料在不同地理區域上的分佈情況。
帶氣泡的地圖
帶氣泡的地圖,其實就是氣泡圖和地圖的結合,我們以地圖為背景,在上面繪製氣泡。我們將圓(這裡我們叫它氣泡)展示在一個指定的地理區域內,氣泡的面積代表了這個資料的大小。
適合的資料:一個分類欄位,一個連續欄位
功能 對比分類資料的數值大小
資料與圖形的對映:一個分類欄位對映到地圖的地理位置和氣泡顏色
另一個連續欄位對映到氣泡大小
適合的資料條數:根據實際地理位置資訊,無限制
使用者體驗
使用者視覺
合格的資料視覺化是有新聞價值的。也就是說,它要能幫助目標觀眾更好地理解資料。有些資料視覺化,只讓我們看到酷炫狂拽的圖形,或者密密麻麻的資料。這些就是過於看重藝術性和科學性,而忽略根本目的了。用資訊研究的理論來說,資料看上去過於混亂和密集,使用者就會不由自主地「切斷資料的傳輸」。
色彩空間
人類對於顏色感知的方式通常包括三個問題:是什麼顏色?深淺如何?明暗如何?在HSV色彩空間中,H 指色相 (Hue),S 指飽和度(Saturation),V 指明度(Value),在 HSL 色彩空間中,L 表示亮度(Lightness)。它們比 RGB 色彩空間更加直觀且符合人類對顏色的語言描述。在 1979 年的 ACM SIGGRAPH(美國計算機協會計算機圖形學專業組)年度會議上,計算機圖形學標準委員會推薦將HSL色彩空間用於顏色設計。
人群中存在一部分人具有視覺缺陷,包括色盲、色弱等。為了幫助他們識別圖表,可能需要採取一些特殊方法。
一個好的視覺化工程師,必定也是一個好的 UX(使用者體驗),所以不光要以易讀性為目標努力,使用者們也要問問自己:這份視覺化是給我看的嗎?我看的方式是否正確?
在資料視覺化的工程中,你在分析中所採取的具體步驟會隨著資料集和專案的不同而不同,但在探索資料視覺化和資料探勘時,總體而言應考慮以下四點:
擁有什麼資料?
關於資料你想了解什麼?
應該使用哪種視覺化方式?
你看見了什麼,有意義嗎?
而去年我和我們廠的兩個同事聯合開發了視覺化分析工具,還給業務人員舉行了一場比賽,順便在產品新版本釋出前讓他(她)們幫我們測一下易用性,然而在比賽評比當晚,我有幸成為了評委,可惜參賽選手們解釋自己的作品時,有的雲裡霧裡、有的激昂慷慨,很多都沒有說到點子上,甚至沒有充分利用到各個圖表型別的優勢,在這個滿世界談使用者體驗的時代,這場資料的“解說”顯然是糟糕的。
那麼什麼是優秀的視覺化作品。我一直認為最好的使用者體驗是深入淺出,所以,優秀的視覺化作品 = 資訊 + 故事 + 目標 + 視覺形式,因此,一件視覺化作品是從資料 -> 互動 -> 視覺 -> 開發的一個過程。
所以優秀的資料視覺化依賴優異的設計,並非僅僅選擇正確的圖表模板那麼簡單。全在於以一種更加有助於理解和引導的方式去表達資訊,儘可能減輕使用者獲 取資訊的成本。當然並非所有的圖表製作者都精於此道。所以我們看到的圖表表達中,各種讓人啼笑皆非的錯誤都有。
總結
定義合適的視覺化圖形,可以說是最為關鍵的。一般情況來看,線柱餅等基本圖形可以完成我們大部分的需求,這也是分析人員最常用的展現形式;但對於大資料場景或具體業務場景下就需要更加特殊的視覺化。
歸納起來一名資料視覺化工程師需要具備三個方面的能力,資料分析能力、互動視覺能力、研發能力。
不管你用什麼工具,別忘了你的目的是理解資料,這可是資料視覺化工程師和軟體工程師的最大區別。
-
5 # DataHunter
其實學習資料視覺化的話,我絕對反對從Excel入門!
因為資料視覺化發展到現在,已經有了很多完善的工具,就像我們家,不是打廣告,請聽我解釋~
以我自己舉例,當初看到Excel裡什麼透視表、切片器、函式的時候感覺特別高大上,高大上到望而生畏,高大上到我預期自己掌握這些功能要特別久的時間,所以從大學就聽說了,一直到研究生畢業然後工作,都沒有撿起來學習。
但是後來進入了這一行,接觸了很多視覺化的工具,比如Tableau,然後又用自己家的產品,最後發現那些高大上的功能用這些工具,1分鐘不到就可以搞定。
這時候我又重新去學習Excel(就是這麼不走尋常路~),發現困擾自己的一些功能已經拿下了,配合百度搜索一些操作細節,分分鐘搞定。
所以請相信我,學習資料視覺化,先用專門的資料視覺化工具,再去學習通用型的工具,不如Excel或SPSS之類的,你的效率要快很多!
-
6 # 帆軟軟體
我覺得最好的方式就是學習並歸納總結別人總結下來的經驗、觀點,並經過自己的大腦進行吸收和消化,最後經過消化吸收創造出自己的東西。
小白學資料視覺化系列,從小白的角度,學習和應用資料視覺化,將會包括為什麼要資料視覺化,資料視覺化是什麼,如何用工具實現資料視覺化工作等內容。
一、為什麼要資料視覺化
二、一些必看的圖和網站
接下來就是一些可以學習的網站了。
資料視覺化門戶導航網站,裡面有資料視覺化工具、教程、分析、設計、色彩、資料清理、資料來源、書籍等等,可以慢慢的吸收。
資料視覺化呈現樣式目錄
三、工具
資料視覺化是藉助工具把資料做視覺化的呈現(常用的是影象)。能夠做資料視覺化的工具有很多,比方說微軟的Excel軟體,Python語言,Finebi,FineReport等。
圖表的式樣也是各種各樣,關鍵是要針對實際的資料,選擇合適的工具和視覺化表示,以實現資料的最佳視覺化,做到簡潔,清晰和準確的效果。
我覺得在這方面,對於小白來說,肯定是不會選擇那些需要程式碼和程式設計的,即使再簡單,也需要成本,所以最簡單,零程式碼的工具,如FineReport和FineBI才是合適的。
-
7 # EasyV資料視覺化
資料視覺化這個行業近年來確實比較火熱,很多資料行業的大佬們都把目光轉向了視覺化這個香餑餑,像行業內專注資料視覺化做的比較好的有:袋鼠雲、數字冰雹、帆軟。包括一些網際網路大廠阿里雲、騰訊雲、華為雲也開始涉及視覺化業務。
那麼你要成為一個數據視覺化工程師首先就是要了解目前資料視覺化的行業發展現狀呀~
說實話哈,過去資料視覺化的開發流程可能要經歷非常複雜的流程,什麼要設計師先設計版式啦,再到前端開發,又是後端開發,不停的測試/聯調,最後再部署上線,這個流程走下來,往往耗費很久時間。所以目前很多資料視覺化廠商都研發了自己的視覺化應用平臺,去改變傳統的資料視覺化開發模式,為使用者來節省時間,時間就是金錢嘛,提高工作效率自然就是為金主爸爸省錢啦~~其實像袋鼠雲就有自己的資料視覺化平臺EasyV,阿里雲有自己的DataV、騰訊有合作的raydata!之前也寫過一個國內十大資料視覺化平臺的對比大家有興趣可以看看
2020年最好用的十大資料視覺化平臺,你值得擁有
「然後我在袋鼠雲官網扒了一個他們做的傳統和EasyV開發工具的對比介紹 大家可以看看,比我介紹的詳細 」
那麼一個數據視覺化工程師瞭解目前的資料視覺化工具發展現狀之後,肯定是要去嘗試使用資料視覺化平臺工具的~所以這邊我就給大家推薦我覺得比較不錯的一個工具 ,EasyV!!!為什麼推薦這個哈~是因為我把國內全部品牌都試用了一遍才推薦最好的嘛~「不然你以為上面那個十大盤點文章怎麼來的」
最重要的是目前有免費試用十天的活動!!哈哈哈哈!作為一個前期瞭解學習者,真的白嫖不要太爽了!!!
3分鐘帶你快速瞭解,一個數據視覺化工具EasyV
一分鐘,帶你瞭解資料視覺化EasyV的優勢與賣點
官方教程:
資料視覺化EasyV的基礎元件操作教程
資料視覺化EasyV的進階元件操作教程
當然除了會使用資料視覺化工具,肯定是不夠的,那麼除了工具,資料視覺化工程師還需要具備什麼樣的特質呢?
那麼入行資料視覺化,你要會什麼技能?
資料視覺化工程師應該是多才多藝的,並且具有良好的收集和分析複雜資料的經驗,無論是敘述還是統計。具體應該掌握以下幾點:
強大的分析能力良好的溝通及人際交往能力,才能建立良好的工作關係要具備在技術/非技術人員面前解釋事物的能力有能力自主工作,也可在團隊工作具備時間管理技能專案管理技能,與利益相關者進行規劃、組織和協調專案的方方面面有能力處理壓力和解決問題的能力積極自我激勵,快速學習和創新的人掌握一些列資料分析工具「重點掌握」瞭解以上的幾點知識,你就掌握了資料視覺化的基本入門技能~
-
8 # 資料觀商業管理雲
首先打個基礎:
課程:必學且免費的基礎課:統計學 | Udacity(http://cn.udacity.com/course/statistics--st095)
書籍:必看的入門書:《精益資料分析》[美]埃裡克-萊斯 叢書主編
《最簡單的圖形與最複雜的資訊》[美]黃慧敏
接下來嘗試把把紙上知識實際操練起來。這裡你可以用excel,也可以用更智慧、更fashion一點的工具,比如說:
工具:資料觀
好處就是操作起來特別簡單,不需要程式設計,也不需要懂什麼excel技巧,很適合新手在演練中梳理、內化資料分析的知識與思路。相信如果工具不好用的話,你花在“kao這一步怎麼實現的”上的時間會遠遠大於“哪個指標、什麼圖表型別更適合解決我現在的問題”上。
畢竟咱們拼的不是程式設計技術高低,而是用資料解決問題的能力。
視覺化效果也棒棒的,還可以實現下鑽、過濾等互動功能:
可以免費試用一下哈:資料觀(https://www.shujuguan.cn/?from=2018060804)
-
9 # 何小煩Ayura
看書-->實操-->產生新的問題-->看更多的書找到答案-->實操
我覺得是這樣一個不斷迴圈過程吧,畢竟我們進入職場,不是大學生了,沒有整塊的時間來讓你“系統學習”。所謂“系統學習”裡面也有很多知識是你在工作中不一定能夠遇到的。“小步快跑、敏捷迭代”是更適合職場人的學習方式。
第一週我的建議是讀一本資料視覺化的書,這本書我建議是《最簡單的圖形與最複雜的資訊》,作者是華爾街日報圖形設計總監Dona Wong,每天看一章,一共五章,連公休日都不佔用,保準你對“什麼是資料視覺化”、“什麼是好的資料化”內心有底。怎麼說呢,讓大神來幫助你建立最初的是非與審美吧!
第二週我的建議是拿一份你工作中的資料進行實戰。利用excel分析也好,用那種自助式的免費的分析工具(比如bdp、資料觀)也罷,運用你在上一週學到的知識,做一份圖表出來。這一階段不要求你用資料解決什麼問題,就對歷史資料做一個客觀陳述就好,主要目的是熟悉工具、熟悉資料、鞏固資料視覺化的基礎知識。
第三週你對資料視覺化已經培養出了一份隱隱的自信,那麼現在你可以給自己提一個業務問題了,然後嘗試視覺化分析。你會發現當你提問的時候,新的問題也會找上你——明顯,《最簡單的圖形與最複雜的資訊》裡面的知識可能不夠用了,你發現自己需要學習一些更深入的東西,比方說函式,這個階段你可以求助於百度知道或知乎,免費的資源依舊一大把,只要你好學就會得到答案。
第四周你應該已經在“邊做邊學”中學會了一些基本的函數了:case when、datediff、substring、substring_index、nullif等;然後你發現你處於一種“腦子裡東西好像很多又好像不夠”的階段,這時候你需要一本稍微深點的書來幫助你重新梳理一下了,是時候看這本書了——《鮮活的資料:資料視覺化指南》,作者是Nathan Yau,加州大學洛杉磯分校統計學專業博士,為《紐約時報》、CNN、Mozilla等工作過的超級資料迷,在這本書裡你將看到大量優秀的資料視覺化案例,同時被作者根據時間趨勢、比例、關係、差異、空間關係這幾大維度對你的底層邏輯“拿龍”,看書的過程會非常爽,甚至有可能影響你對視覺化工具的選擇~同時你還能從中獲知大量的資料來源(然後可勁兒地操練自己吧!)。
就這樣,一個月的時間,你已經不是資料視覺化小白了,手裡應該會有2~3份做好的資料視覺化成果,心裡也知道下一步該做什麼、該學什麼——你已經正式啟航了~
如果覺得有用,就讚我讓我知道哦:)
祝你成功!
最後附上我的作品:
-
10 # IT技術管理那些事兒
資料視覺化入門並不困難,這裡我們從什麼是資料視覺化、資料視覺化的價值、什麼是好的資料視覺化、資料視覺化難在哪、怎麼做資料視覺化、視覺化進階路線、視覺化工具推薦、資料視覺化注意事項這八個方面簡單介紹一下:
一、什麼是資料視覺化?視覺化可簡明地定義為:透過可視表達增強人們完成某些任務的效率。
任何形式的資料視覺化都會由豐富的內容、引人注意的視覺效果、精細的製作三個要素組成,概括起來就是新穎而有趣、充實而高效、美感且悅目三個特徵。
很多資料產品在幫助資料分析的同時提供了內建的視覺化圖表,也提供了配色參考建議,諸如以下我用FineReport做的產品分析。
FineReport二、資料視覺化的價值資料視覺化都有一個共同的目的,那就是準確而高效、精簡而全面地傳遞資訊和知識。視覺化能將不可見的資料現象轉化為可見的圖形符號,能將錯綜複雜、看起來沒法解釋和關聯的資料,建立起聯絡和關聯,發現規律和特徵,獲得更有商業價值的洞見和價值。因此,資料視覺化能夠加深和強化受眾對於資料的理解和記憶。
三、什麼是好的資料視覺化資料視覺化能做到準確、充實、高效、美感就是好的視覺化:
準確:用最簡單的方式傳遞最準確的資訊, 最簡單方式就是最合理的圖表,需要根據比較關係、資料維數、資料多少選擇。
充實:一份資料分析報告或者解釋清楚一個問題,需要多個指標或者同一指標的不同維度相互配合佐證分析結論。
高效:成功的視覺化,雖表面簡單卻富含深意,可以讓觀察者一眼就能洞察事實併產生新的理解。
美感:分為兩個層次,第一層是整體協調美,沒有多餘元素,圖表中的座標軸、形狀、線條、字型、標籤、標題排版等元素是經過合理安排的 , 第二層是讓人愉悅的視覺美,色彩應用恰到好處。
四、資料視覺化難在哪?好的產品體驗不是一件容易的事情,需要具備一定的資料分析能力、熟練使用視覺化工具、較好的美術素養、良好的使用者體驗感覺。
1. 資料不準確、結論不是很清晰,所以資料視覺化的最大難點在資料視覺化之外的基礎性工作,資料收集、資料分析沒有做好,視覺化就是徒勞無功。
2. 資料視覺化是用高度抽象的圖表展示覆雜的資料、資訊,需要邏輯及其嚴密。
3. 維度多、變數多,不確定應該展示哪些資訊?資料過多,需要採用互動式的展現視覺化。
4. 和UI圖形介面相比,圖表只有有限的文圖指引,不能很好的說明資料的上下文關係。
5.圖表高度抽象,對於閱讀者素質要求很高。
6.選擇正確的圖表不容易,各類圖表都有自己的優勢和侷限性。
7.圖表細節處見真功夫,圖表需要考慮細節實在是太多,佈局、元素、刻度、單位、圖例等等都需要合理。
五、怎麼做資料視覺化?1. 明確圖表想說明什麼業務問題、業務邏輯 、資料分析結論
2. 確定關係和對比的維度,是時間趨勢、比較,還是分佈關係,對比維度(時間: 同比 環比 定基)、空間(華南 華北 區域與全國)、特定標準(實際和計劃)
3. 根據對比關係,資料維度,資料分類多少選擇合理的圖表,每一種圖表都有它自身的優點和侷限性
4. 生成圖表並驗證是否正確,是否和預期一致
5. 細節調整,座標軸(刻度標記型別、間隙、刻度標籤位置、資料型別、小數位、是否千分位)、顏色取值、圖例位置、圖上標籤、圖表標題等細節
6. 在恰當處備註文字說明,例如標註特殊事件
我推薦幾本資料視覺化領域的經典圖書,有時候網上刷再多的文章不如好好閱讀一本書:
六、視覺化進階路線資料視覺化一般是整個資料分析鏈路的最後一個環節。在資料視覺化之前,我們需要對原始資料進行大量的整理和清洗處理,這一環節首選資料庫SQL,資料處理之後才是分析和視覺化。資料視覺化有兩個方向很值得去嘗試:商業智慧BI與動態互動圖表。
SQL是資料分析師的核心技能之一。有些公司並不給資料庫許可權,需要分析師寫郵件提需求,這非常不好。資料分析師經常有各類假設需要驗證,很多時候寫十幾行SQL就能得到的答案,還得麻煩其他部門匯出資料。
所以,這裡推薦一個數據視覺化技能的進階路線:SQL+BI+Echarts
七、視覺化工具推薦對於資料視覺化,有諸多工具,如:
1、圖表類外掛:ECharts、Highcharts、D3js等功能都十分強大。
2、資料報表類:Excel、金蝶、FineReport等,對於日常的報表製作,更加易學實用。
3、視覺化BI類:比如cognos、tableau、FineBI等,更直接地針對業務分析。
以上,前兩者是純粹的可是化圖示,後兩者涵蓋從資料採集、分析、管理、挖掘、視覺化在內的一系列複雜資料處理。
FineReport八、視覺化過程的注意事項總結幾點注意事項,少走些彎路:
1. 資料圖表主要作用是傳遞資訊,不要用它們選技巧,不要追求過分漂亮,以反映業務問題為主
2. 不要試圖在一張圖中表達所有的資訊,不要讓圖表太沉重,適得其反
3. 資料視覺化是以業務邏輯為主線串聯,不要隨意堆砌圖表
4. 避免過度開發,什麼資料都想展現,資料太多就選擇最核心的資料指標、和正常偏差大的、能支援分析結論的
5. 不要試圖掩蓋問題,迴避“不良結論”,真實反映業務,暴露問題
6. 避免過度設計,一般不適用3D、陰影,合理運用色彩同樣能讓圖表顯示的很高階
-
11 # 守心十一
資料視覺化的內容包括:
繪圖思想的基本原理
Matplotlib介紹
Matplotlib進行圖形繪製
Pandas做視覺化
Seaborn介紹與圖形繪製
Pyecharts介紹與圖形繪製
使用Python進行地圖繪製-Pyecharts
如果是小白的話,建議到專業的機構系統學習,可以關注cda資料分析師
回覆列表
首先要看你的職業規劃,如果你是以業務為主的資料分析,給非專業人士展示,學習powerBI,tableau,一個小時足矣。
如果你是以技術為主的資料分析,或資料探勘,給專業人士展示,學習Python,R語言, Python中視覺化的工具有matplotlib,seaborn,ploltly; R中視覺化工具有plot基礎庫、ggplot2。
隨心所欲,用Python和R,你就知道做資料分析工作是多麼爽一個事