利用Python進行資料分析,既可以做常規的統計分析,也可以利用機器學習演算法進行資料探勘。
下面分享一個Python資料分析案例:用Python爬取騰訊課堂“前端開發”品類下的課程資料,然後做資料分析,並進行視覺化。
整個資料分析過程,主要做了以下3件事情:
利用Python爬蟲爬取騰訊課堂“前端開發”品類下33頁的課程資料。
以上程式碼執行完畢後,檢視資料。
從上面看到,共採集到792條記錄。
針對上述採集到的資料,需要做以下事情:
購買人數:只關心其中的數字,需要把其中的非數字符號去除。
價格:只關心其中的數字,需要把免費替換為0,有價格的裡面的人民幣符號¥去除。
清洗思路:利用正則表示式替換。
有了思路後,下面透過for迴圈處理所有資料。
以上只是把無關的符號去除了,但是資料型別還有問題,透過type檢視可以發現,購買人數及價格雖然是數字,但其實是字串型別,所以還需要透過astype進行型別轉換。
經過以上處理,可以看到購買人數、價格都被轉換成了數值型。
首先透過describe函式對資料進行描述性統計分析。
說明:加上include引數可以讓所有欄位都顯示,包括非數值型欄位。
對該品類(前端開發,以下簡稱該品類)的描述性統計分析可以看出:
以下按照“機構”進行分組統計。
還可以透過matplotlib進行資料視覺化。
以下展示的是報名人數前10的教育機構。
以下透過餅圖展示每個機構的課程數。
還可以透過折線圖展示每個機構的報名人數。
回答完畢!
利用Python進行資料分析,既可以做常規的統計分析,也可以利用機器學習演算法進行資料探勘。
下面分享一個Python資料分析案例:用Python爬取騰訊課堂“前端開發”品類下的課程資料,然後做資料分析,並進行視覺化。
整個資料分析過程,主要做了以下3件事情:
資料採集:利用requests實現Python爬蟲資料清洗:正則表示式、資料型別轉換。資料分析:分組統計、資料視覺化。在騰訊課堂首頁,選擇“前端開發”品類,開啟頁面如下所示。1.資料採集:利用requests實現Python爬蟲利用Python爬蟲爬取騰訊課堂“前端開發”品類下33頁的課程資料。
以上程式碼執行完畢後,檢視資料。
從上面看到,共採集到792條記錄。
2.資料清洗:正則表示式、資料型別轉換針對上述採集到的資料,需要做以下事情:
購買人數:只關心其中的數字,需要把其中的非數字符號去除。
價格:只關心其中的數字,需要把免費替換為0,有價格的裡面的人民幣符號¥去除。
清洗思路:利用正則表示式替換。
有了思路後,下面透過for迴圈處理所有資料。
以上只是把無關的符號去除了,但是資料型別還有問題,透過type檢視可以發現,購買人數及價格雖然是數字,但其實是字串型別,所以還需要透過astype進行型別轉換。
經過以上處理,可以看到購買人數、價格都被轉換成了數值型。
3.資料分析:分組統計、視覺化首先透過describe函式對資料進行描述性統計分析。
說明:加上include引數可以讓所有欄位都顯示,包括非數值型欄位。
對該品類(前端開發,以下簡稱該品類)的描述性統計分析可以看出:
總共有10個教育機構提供了792門課程。報名人數最多的一門課程有6156人報名,最貴的一門課程價格為15698元。該品類下的課程的平均報名人數為1451人,平均價格為681元。以下按照“機構”進行分組統計。
還可以透過matplotlib進行資料視覺化。
以下展示的是報名人數前10的教育機構。
以下透過餅圖展示每個機構的課程數。
還可以透過折線圖展示每個機構的報名人數。
回答完畢!