回覆列表
  • 1 # 論智

    分為三步:

    爬取資料分析資料視覺化爬取資料

    從網站爬取資料的Python庫有一大堆,其中最流行的是Scrapy。

    Scrapy上手很容易,有圖為證:

    你看,寥寥幾行程式碼就完成了從安裝到編寫爬取程式碼到執行爬蟲的全過程。

    簡單解釋下上面的程式碼:從blog.scrapinghub.com爬取部落格文章的標題,會透過訪問下一頁的連結遍歷整個部落格。

    注意,Scrapy無法爬取一些動態內容。你需要搭配Selenium之類的工具解析出動態內容後,再讓Scrapy爬取。

    分析資料

    主要使用numpy和pandas.

    pandas的主要資料結構是DataFrame,你可以把它理解為表格,每行是一個數據點/記錄/觀測,每列是一項特徵/屬性。

    而numpy則主要用於數值計算。

    視覺化

    最流行的Python視覺化庫是matplotlib。不過,matplotlib有時候寫起來有點繁瑣,所以一般用seaborn。seaborn是基於matplotlib的高層封裝。

    當然,seaborn也沒有完全取代matplotlib,某些場景還是需要用下matplotlib的。

  • 2 # 小小猿愛嘻嘻

    這裡介紹一個簡單地例子,如何從一步一步爬取資料到視覺化顯示,主要用到requests+BeautifulSoup(爬取資料)+pyecharts(視覺化)這3個包,實驗環境win10+python3.6+pycharm5.0,主要步驟如下:

    1.為了方便演示,我們這裡以人人貸上面的債權資料為例,如下,主要爬取借款標題和金額這2個欄位,後面也是以這2個欄位資料作為統計和視覺化的基礎:

    2.分析這個頁面可知,資料是非同步載入的,在一個json檔案中,如下,對應到json中,也就是title和amount這2個欄位的內容:

    3.針對這個json檔案,主要解析程式碼如下,主要用到json這個包,程式碼很簡單,也就十幾行而已,主要基於dict字典按借款型別統計資料:

    執行程式碼,程式截圖如下,已經成功爬取到了我們要列印的內容:

    4.視覺化顯示,這裡主要用到pyecharts這個包,使用起來很簡單,主要基於web瀏覽器進行顯示,圖片很美觀,我這裡視覺化顯示,主要用到柱狀圖、餅狀圖和漏斗圖3種類型的圖,如下:

    柱狀圖,這裡主要統計了每種借款型別的最大金額和最小金額,程式碼量很少,如下,爬取了前10頁資料做統計:

    程式執行截圖如下,已經成功顯示出每種借款型別最大值和最小值:

    餅狀圖,這裡主要統計了每種借款型別金額的綜合,程式碼如下,也是前10頁資料:

    程式執行截圖如下,每種借款型別所佔比例都已顯示出來:

    漏斗圖,這裡主要按每種借款型別的總額做了一個排序,主要程式碼如下:

    程式執行截圖如下,已經成功畫出了漏斗圖,可以清晰地看出每種借款型別對應的位置:

    至此,我們就完成了資料的爬取和視覺化顯示。基本流程都是3步,爬取資料->統計資料->視覺化顯示,我這裡以這3個包為例,你也可以使用其他的包,像爬蟲scrapy,視覺化matplotlib,seaborn等,資料統計處理numpy,pandas等,這裡就不詳細介紹了,只要你有一定的python基礎,多加練習一下,很快就能掌握的,網上也有相關教程,希望以上分享的內容能對你有所幫助吧。

  • 中秋節和大豐收的關聯?
  • 你在職場生涯中,有被同事坑過嗎?結果怎麼樣了?