回覆列表
  • 1 # 大資料研習社

    利用Python進行資料分析,既可以做常規的統計分析,也可以利用機器學習演算法進行資料探勘。

    下面分享一個Python資料分析案例:用Python爬取騰訊課堂“前端開發”品類下的課程資料,然後做資料分析,並進行視覺化。

    整個資料分析過程,主要做了以下3件事情:

    資料採集:利用requests實現Python爬蟲資料清洗:正則表示式、資料型別轉換。資料分析:分組統計、資料視覺化。在騰訊課堂首頁,選擇“前端開發”品類,開啟頁面如下所示。1.資料採集:利用requests實現Python爬蟲

    利用Python爬蟲爬取騰訊課堂“前端開發”品類下33頁的課程資料。

    以上程式碼執行完畢後,檢視資料。

    從上面看到,共採集到792條記錄。

    2.資料清洗:正則表示式、資料型別轉換

    針對上述採集到的資料,需要做以下事情:

    購買人數:只關心其中的數字,需要把其中的非數字符號去除。

    價格:只關心其中的數字,需要把免費替換為0,有價格的裡面的人民幣符號¥去除。

    清洗思路:利用正則表示式替換。

    有了思路後,下面透過for迴圈處理所有資料。

    以上只是把無關的符號去除了,但是資料型別還有問題,透過type檢視可以發現,購買人數及價格雖然是數字,但其實是字串型別,所以還需要透過astype進行型別轉換。

    經過以上處理,可以看到購買人數、價格都被轉換成了數值型。

    3.資料分析:分組統計、視覺化

    首先透過describe函式對資料進行描述性統計分析。

    說明:加上include引數可以讓所有欄位都顯示,包括非數值型欄位。

    對該品類(前端開發,以下簡稱該品類)的描述性統計分析可以看出:

    總共有10個教育機構提供了792門課程。報名人數最多的一門課程有6156人報名,最貴的一門課程價格為15698元。該品類下的課程的平均報名人數為1451人,平均價格為681元。

    以下按照“機構”進行分組統計。

    還可以透過matplotlib進行資料視覺化。

    以下展示的是報名人數前10的教育機構。

    以下透過餅圖展示每個機構的課程數。

    還可以透過折線圖展示每個機構的報名人數。

    回答完畢!

  • 中秋節和大豐收的關聯?
  • 馬上春節,怎麼拍“燈”效果好?有什麼攝影技巧?