現在都說,是大資料時代,可是百度了,也不能給我一個通俗易懂的答案:到底什麼是大資料,為什麼會出現這種情況,怎麼處理呢?
起初,資料量很少的時代,通過表格工具、mysql等關係型資料庫(二維表資料庫,資料逐行插入)就能夠解決資料儲存的問題。
但是,隨著網際網路的飛速發展,產品以及使用者的激增,產生了海量的資料。
考慮到長足發展,公司會對產品、使用者相關的原生資料、埋點資料等進行分析,傳統的關係型資料庫就無法滿足需要,只能通過行式、分散式等資料庫來儲存這些資料(HBASE、hive等,能夠實現叢集化,及分配到多臺主機上同時計算)。
當資料量大了,光禿禿的數字就難免讓人產生睏意,所以就出現了由資料向圖表的轉變,也就是我們說的資料視覺化。
認識資料視覺化有了資料之後,對資料分析就是成了最關鍵的環節,我公司的分析師就曾對我說過一句話:資料分析主要對整體分析,而不執著於特殊的個體資料,這樣才能夠給產品提供巨集觀、有效的參考價值。
海量的資料讓使用者通過逐條檢視是不可行的,影象化才是有效的解決途徑。少量的資料可以通過表格工具生成圖表、透視表的方式進行分析,但是大資料的分析就需要藉助專門的視覺化工具了,常見的視覺化工具包括:Tableau、FineBI等。
大部分商用資料視覺化工具的計算、圖表展示雖然比較強大,但是卻無法做到實時資料快速生成,資料也多為push(固定的範圍)的方式,有時候資料還需要二次加工滿足視覺化產品的規則(商用產品多考慮通用性,無法適用於所有企業的資料規範)。
除此之外,現在很多圖表外掛的開源化(如:Echart、GoogleChart),以及行業內對資料安全性等的考慮,越來越多的公司也開始進行資料視覺化的私有化部署。
資料視覺化的型別1、探索性視覺化
探索性視覺化需求一般集中在資料分析場景中的資料探索場景。在分析資料的時候需要對資料進行探索,最後才能得出結論。
但是為啥我們需要使用視覺化的方式去探索資料呢?使用統計學的方式不就能得出結論了嗎?其實並不是,最典型的案例就是安斯庫姆四重奏。四組資料的平均數、方差以及相關係數都一樣,你可能會覺得這些資料的分佈應該也會很像。
但,當你使用資料視覺化的方式去看這些資料時,你會發現他們的分佈都不一樣:
從流程來看,探索性視覺化是這樣的:
2、解釋性視覺化
解釋性視覺化需求一般集中在完成了資料探索,並且形成一定資料洞察後的 story-telling 場景。大家在網上看到的一些「一張圖搞懂 XXX 」、「一張圖了解 XXX」就屬於解釋性視覺化。所以解釋性視覺化的流程是這樣的:
國內的視覺化步驟一般是這樣的:
使用者匯入資料到產品,然後進行一些視覺化的探索,或者直接將資料進行視覺化的表達。
但是,基於我對目前的使用者樣本量的理解,我發現這種偏業務型的產品框架,並不太適合國內市場。因為這類產品面向的使用者基本上是專業使用者(資料分析師),而忽略了一個事實——大部分中國企業並沒有設立專門的資料分析崗位。
有能力配備資料分析師的企業一般都是中大型企業以及網際網路企業,他們付費能力可能比較強,但是也意味著使用者量會較少。使用者樣本集中在以下兩大塊:
專業使用者對應的是資料分析師,而半專業使用者則對應的是類似財務、銷售、HR 等,在業務上專業但資料分析上不專業的使用者。在企業裡面,其實半專業使用者遠大於專業使用者。而這類使用者的日常工作又一般集中在解釋性視覺化上面,比如年終總結、年度規劃、每月彙報中都需要利用到資料視覺化。所以這類使用者的流程是這樣的:
使用者匯入資料,無需太複雜的操作,即可直接生成圖表。(為什麼少了資料化探索呢?其實是因為在半專業使用者中,又以中小型企業的使用者為主,他們的業務相對單一,且交易、財務資料都不會太大。當然了還有一些是靠 erp 資料分析的,這裡就不展開細談了。)
然後根據圖表,補充自己的洞見,就可以製成報告給到老闆。
資料視覺化的實現資料視覺化產品(系統)的結構框架主要分為三層:資料儲存層、資料計算層、資料展示層。
1. 資料儲存層
資料儲存層在開頭已經和大家說過了,在資料視覺化產品(系統)中,既支援常規資料(MySQL、CSV等)視覺化,也支援大資料(hive、HBASE等)的視覺化,滿足日常分析人員定性、定量的分析。
在考慮到資料安全的因素,資料儲存還會與許可權管理相結合,實現不同角色的人只能訪問指定的資料。
2. 資料計算層
這裡的計算不是平時所說的聚合、排序、分組等計算,解釋之前我們先了解一下資料分析的工作流程吧:
產品/運營人員提出資料需求,如“APP一週留存 ”;分析師確認需求後需要明確本次分析需要的欄位及分析方式;數倉人員提供整理後的表格(資料模型,多張表join後合成的中間表);分析師基於資料模型進行視覺化分析。數倉提供的資料模型主要分為增量、全量資料,不能直接對某個較長範圍的資料進行分析,舉個例子1月1日、1月2日兩天都產生了資料,增量、全量的資料儲存方式效果如下:
3. 資料展示層
可以給很多人看,資料分析師,業務人員,IT人員,還有管理層。
總結我想未來的 BI 的產品不能將自己定位為「工具」,而是應該定位為「服務」。
這裡的「服務」不是說從原來的買斷式收費,轉變為按年收服務費,這只是商業模式的轉變。我理解的轉變是要從產品理念上做文章,BI 產品不能只是一個工具,而應該是一個服務平臺,連線企業內外部資料之外,並且更重要的是,需要連線企業內外部的業務。比如連線供應鏈的資料,連線財務資料,連線審批資料等等。
比如,對於一家生產魚丸的企業,當系統發現製作魚丸的原材料庫存不足,但是又快到銷售的旺季,是不是能提前預警,並且快速將此資訊發到供應商那,直接訂貨。再比如,當一家企業的現金流並不是非常健康時,系統能否能推薦企業一些「財務顧問」服務,甚至「現金貸款」服務?
我相信總歸是有辦法的。