首頁>科技>

本文連結:https://blog.csdn.net/SeizeeveryDay/article/details/105172279

最近,不止一次收到群裡小夥伴的截圖追問:

“這個圖叫什麼???”

“這個圖真好看!!!怎麼畫啊?”

小z本沒有乾貨,問的人多了,也便有了乾貨。

此圖姓桑名基,平素不喜露面。奈何天生麗質,偶有露面,必引眾人圍觀。

時人有云:“桑基桑基,高貴美麗!”

桑基是何許圖也

據小z不嚴謹的抽樣提問統計,90%想學習桑基圖的旁友,都是被她妖豔炫酷的外表所吸引。

而桑基圖真正代表了什麼?和類似圖表相比的獨特性是什麼?卻幾乎無人問津。

害!人真的是視覺動物!

言歸正傳,我們來看看百科的官方解釋:

桑基圖(Sankey diagram),即桑基能量分流圖,也叫桑基能量平衡圖。它是一種特定型別的流程圖,圖中延伸的分支的寬度對應資料流量的大小,通常應用於能源、材料成分、金融等資料的視覺化分析。因1898年Matthew Henry Phineas Riall Sankey繪製的"蒸汽機的能源效率圖"而聞名,此後便以其名字命名為"桑基圖"。

Emmm,有點內個意思了,結合其他資料,做進一步的彙總提煉:

桑基兩個字取自“發明”者的名字屬於流程圖的一種,核心在於展示資料的流轉主要由節點、邊和流量三要素構成,邊越寬代表流量越大遵循守恆定律,無論怎麼流動,開端和末端資料總是一致的

文字太蒼白,下面我們用Python來繪製一個具體的例項~

Python手把手繪製桑基圖

動手之前,我們再次敲黑板,回顧桑基圖組成要素的重點——節點、邊和流量。

任何桑基圖,無論展現形式如何誇張,色彩如何豔麗,動效如何炫酷,本質都逃不出上述3點。

只要我們定義好上述3個要素,Python的pyecharts庫能夠輕鬆實現桑基圖的繪製。

這裡我們用“當代青年熬夜原因分析”資料為例:

很規整的性別、熬夜原因、人數三列資料。

不過,要用pyecharts來畫圖,得入鄉隨俗,按照它定的規則來規整資料來源。

首先是節點,這一步需要把所有涉及到的節點去重規整在一起。也就是要把性別一列的“男”、“女”和熬夜原因一列的“打遊戲”、“加班”、“看劇”以列表內巢狀字典的形式去重彙總:

接著,定義邊和流量,資料從哪裡流向哪裡,流量(值)是多少,迴圈+字典依然可以輕鬆搞定:

source-target-value的字典格式,很清晰的描述了資料的流轉情況。

這兩塊資料準備完畢,桑基圖已經完成了80%,剩下的20%,只是固定格式的繪圖程式碼:

from pyecharts.charts import Sankeyfrom pyecharts import options as opts pic = (    Sankey()    .add('', #圖例名稱         nodes,    #傳入節點資料         linkes,   #傳入邊和流量資料         #設定透明度、彎曲度、顏色         linestyle_opt=opts.LineStyleOpts(opacity = 0.3, curve = 0.5, color = "source"),         #標籤顯示位置         label_opts=opts.LabelOpts(position="right"),         #節點之前的距離         node_gap = 30,    )    .set_global_opts(title_opts=opts.TitleOpts(title = '熬夜原因桑基圖'))) pic.render('test.html')

一個回車下去,看看成果:

果然,男打遊戲女看劇,加班熬夜是兒戲。

如果想要垂直顯示,只需要在add函數里面加一個orient="vertical"就好:

pic = (    Sankey()    .add('',         nodes,         linkes,         linestyle_opt=opts.LineStyleOpts(opacity = 0.3, curve = 0.5, color = "source"),         label_opts=opts.LabelOpts(position="top"),         node_gap = 30,         orient="vertical",      #更改的是這裡    )    .set_global_opts(title_opts=opts.TitleOpts(title = '熬夜原因細分桑基圖'))) pic.render('test2.html')

OK!不過,還有同學意猶未盡,這個是涉及到兩層的流轉,那如果三層,需要怎麼畫呢?

不慌,先匯入(狗糧)資料:

這是某寵物品牌,3月份主要產品購買路徑(第一次和第二次)的資料,先是品類,其次是第一次購買的產品型別,接著是第二次購買的產品型別,最後一列對應人數。

注:這裡第一次購買的產品前面加了“1-”,第二次購買加了“2-”的區分標識。

畫圖必備的nodes節點實現很簡單,所有節點(品類、第一次購買、第二次購買)做去重彙總,對上面生成nodes程式碼稍作調整就可以:

而linkes只接受source-traget-value的格式,得先對源資料進行格式調整,分別形成“品類-第一次購買-人數”,“第一次購買-第二次購買-人數”的樣式,再統一彙總:

規整彙總好之後,只需要複用上面的linkes程式碼:

畫圖程式碼幾乎沒變,只是改了個標題:

pic = (    Sankey()    .add('',         nodes,         linkes,         linestyle_opt=opts.LineStyleOpts(opacity = 0.3, curve = 0.5, color = 'source'),         label_opts=opts.LabelOpts(position = 'top'),         node_gap = 30,    )    .set_global_opts(title_opts=opts.TitleOpts(title = '客戶購買路徑流轉圖')))pic.render('test3.html')

大功告成,So easy!無論是多少層資料的流轉,只要定義好nodes和linkes,就能以不變應萬變。

最後,透過上面的桑基圖,我們能夠非常直觀的洞察到客戶購買流轉規律:

出於試錯成本的考量,大部分客戶第一次購買的是小規格狗糧。第一次購買小規格狗糧的客戶,流失(第二次未購買)情況嚴重,且再次購買客戶,更傾向於繼續選擇小規格狗糧嘗試,而不是信任性的購買大規格狗糧。第一次購買大規格狗糧的客戶,留存下來的客戶已經建立起對品牌的信任感,再次購買大部分選擇了大規格狗糧。購買狗糧的客戶第二次復購鮮有嘗試玩具的,而第一次購買玩具的客戶,也並未建立起對品牌狗糧的興趣。

原本死板的資料,在桑基的裝扮之下,變得楚楚動人。

7
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • YouTube推出了對直播流的HDR支援