首頁>科技>

今年不知道有多少小夥伴留在原地過年,雖然今年過年不能回老家,但這個年也得過,也得買年貨,給家人長輩送禮。於是我出於好奇心的想法利用爬蟲獲取某寶資料,並結合 Python 資料分析和第三方視覺化平臺來分析一下大家過年都買了哪些東西,分析結果大屏如下:

上面使用清洗好的資料後用 finebi 第三方視覺化工具完成的。接下來是用 Python 的實現過程,對於本文的敘述,主要分為以下五步:

分析思路爬蟲部分資料清洗資料視覺化及分析結論與建議一、分析思路

其實就今天的資料來講,我們主要做的是探索性分析;首先梳理已有的欄位,有標題(提取出品類)、價格、銷量、店鋪名、發貨地。下面來做一下詳細的維度拆分以及視覺化圖形選擇:

品類:

品類銷量的 TOP 10 有哪些?(表格或者橫向條形圖)熱門(出現次數最多)品類展示;(詞雲)

價格:年貨的價格區間分佈情況;(圓環圖,觀察佔比)

銷量、店鋪名:

店鋪銷量最高的 TOP 10 有哪些?(條形圖)結合品類做聯動,比如點堅果,對應展示銷量排名的店鋪;(聯動,利用三方工具)

發貨地:銷量最高的城市有哪些?(地圖)

pip install selenium

安裝成功後,執行如下程式碼,輸入關鍵字"年貨",進行掃碼就可以了,等著程式慢慢採集。

採集結果如下:

資料準備完成,中間從標題裡提取類別過程比較耗時,建議大家直接用整理好的資料。

大概思路是對標題進行分詞,命名實體識別,標記出名詞,找出類別名稱,比如堅果、茶葉等。

三、資料清洗

這裡的檔案清洗幾乎用 Excel 搞定,資料集小,用 Excel 效率很高,比如這裡做了一個價格區間。到現在資料清洗已經完成(可以用三方工具做可視化了),如果大家愛折騰,可以接著往下看用 Python 如何進行分析。

四、資料視覺化及分析

1、讀取檔案

2、視覺化:詞雲圖

圖表說明:我們可以看到詞雲圖,熱門(出現次數最多)品類字型最大,依次是:堅果、茶葉、糕點等。

3、視覺化:繪製圓環圖

圖表說明:圓環圖和餅圖類似,代表部分相對於整體的佔比情況,可以看到0 ~ 200元的年貨大概33%左右,100 ~ 200元也是33%。說明大部分的年貨的價格趨於200以內。

4、視覺化:繪製條形圖

圖表說明:以上是店鋪按銷量排名情況,可以看到第一名是三隻松鼠旗艦店,看來過年大家都喜歡吃乾貨。

5、視覺化:繪製橫向條形圖

圖表說明:根據類別銷量排名,排名第一是堅果,驗證了上面的假設,大家喜歡吃堅果。

結論與建議

淘寶熱賣年貨: 堅果,茶葉,糕點,餅乾,糖果,白酒,核桃,羊肉,海參,枸杞;

年貨推薦清單(按銷量):堅果、零食、糕點、餅乾、茶葉、糖果、松子、紅棗、蛋糕、滷味、瓜子、牛奶、核桃;

年貨價格參考:66%以上的年貨價格在0~200元之間;

熱門店鋪:三隻老鼠、天貓超市、百草味、良品鋪子;

注:原始碼和工具,都給大家放下面了!

22
最新評論
  • 整治雙十一購物亂象,國家再次出手!該跟這些套路說再見了
  • VMLogin防關聯瀏覽器對比候鳥瀏覽器安全利弊優勢經驗教程