如何利用python爬取嗶哩嗶哩上的彈幕評論？在爬取過後應該如何進行統計分析？

首頁>Club>2021-02-15 21:10

如何利用python爬取嗶哩嗶哩上的彈幕評論？在爬取過後應該如何進行統計分析？

回覆列表

1 # 小小猿愛嘻嘻

這個實現起來很簡單，主要是抓包分析，嗶哩嗶哩的彈幕資訊都儲存在一個xml檔案中，只要找到這個xml檔案，然後進行解析，就能提取到我們所需的彈幕資訊，下面我簡單介紹一下實現過程，實驗環境win10+python3.6+pycharm5.0，主要內容如下：

1.這裡假設我們要爬取的是《動物世界》的彈幕資訊，如下，看著資訊好多：
開啟這個檔案，複製連結到瀏覽器中，果然出現了我們需要的彈幕資訊，如下：

2.接著就是爬取這個xml檔案，並進行解析了，其實很簡單，主要用到requests和BeautifulSoup這2個組合，requests請求xml檔案，BeautifulSoup進行解析，很快就能提取到我們需要的彈幕資訊，主要程式碼如下，很簡單：

程式執行截圖如下，已經成功解析出彈幕資訊：

3.對抓取的彈幕資訊進行簡單統計分析，這裡以詞雲進行顯示吧，更直觀、明瞭，還顯得高大上，主要是先進行分詞，然後再繪製詞雲，主要用到wordcloud和jieba這2個包，其中jieba用於中文分詞，wordcloud用於繪製詞雲，主要步驟如下：
安裝jieba,wordcloud這2個包，這裡直接在cmd視窗pip install安裝就行，如下：

分詞及繪製詞雲圖程式碼（背景圖片可以自行設定），如下，很簡單：

程式執行成功後，會在當前目錄下生成一個alice_color.png圖片，開啟這個圖片，就是我們生成好的詞雲圖，如下：

可以看得出來，“會員”，“富有”，“微笑”是詞頻最高的3個詞，看來看《動物世界》還需要會員，裡面的人物都很富有啊，哈哈哈。

至此，我們就完成了利用python來爬取嗶哩嗶哩的彈幕資訊，並進行了簡單的統計展示。總的來說，整個過程不難，只要抓包分析，找到對應的xml檔案，結合requests和BeautifulSoup，我們很快就能提取出所需的彈幕資訊，網上也有相關資料和教程，感興趣的可以搜一下，希望以上分享的內容能對你有所幫助吧。

∧ 中秋節和大豐收的關聯？

∨ 最後6分鐘歐文被換下，鏡頭給足到10秒，神情落寞眼神空洞，對此你怎麼看？

熱門排行

劇多

如何利用python爬取嗶哩嗶哩上的彈幕評論？在爬取過後應該如何進行統計分析？