這個實現起來很簡單,主要是抓包分析,嗶哩嗶哩的彈幕資訊都儲存在一個xml檔案中,只要找到這個xml檔案,然後進行解析,就能提取到我們所需的彈幕資訊,下面我簡單介紹一下實現過程,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
1.這裡假設我們要爬取的是《動物世界》的彈幕資訊,如下,看著資訊好多:
開啟這個檔案,複製連結到瀏覽器中,果然出現了我們需要的彈幕資訊,如下:
2.接著就是爬取這個xml檔案,並進行解析了,其實很簡單,主要用到requests和BeautifulSoup這2個組合,requests請求xml檔案,BeautifulSoup進行解析,很快就能提取到我們需要的彈幕資訊,主要程式碼如下,很簡單:
程式執行截圖如下,已經成功解析出彈幕資訊:
3.對抓取的彈幕資訊進行簡單統計分析,這裡以詞雲進行顯示吧,更直觀、明瞭,還顯得高大上,主要是先進行分詞,然後再繪製詞雲,主要用到wordcloud和jieba這2個包,其中jieba用於中文分詞,wordcloud用於繪製詞雲,主要步驟如下:
安裝jieba,wordcloud這2個包,這裡直接在cmd視窗pip install安裝就行,如下:
分詞及繪製詞雲圖程式碼(背景圖片可以自行設定),如下,很簡單:
程式執行成功後,會在當前目錄下生成一個alice_color.png圖片,開啟這個圖片,就是我們生成好的詞雲圖,如下:
可以看得出來,“會員”,“富有”,“微笑”是詞頻最高的3個詞,看來看《動物世界》還需要會員,裡面的人物都很富有啊,哈哈哈。
至此,我們就完成了利用python來爬取嗶哩嗶哩的彈幕資訊,並進行了簡單的統計展示。總的來說,整個過程不難,只要抓包分析,找到對應的xml檔案,結合requests和BeautifulSoup,我們很快就能提取出所需的彈幕資訊,網上也有相關資料和教程,感興趣的可以搜一下,希望以上分享的內容能對你有所幫助吧。
這個實現起來很簡單,主要是抓包分析,嗶哩嗶哩的彈幕資訊都儲存在一個xml檔案中,只要找到這個xml檔案,然後進行解析,就能提取到我們所需的彈幕資訊,下面我簡單介紹一下實現過程,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
1.這裡假設我們要爬取的是《動物世界》的彈幕資訊,如下,看著資訊好多:
開啟這個檔案,複製連結到瀏覽器中,果然出現了我們需要的彈幕資訊,如下:
2.接著就是爬取這個xml檔案,並進行解析了,其實很簡單,主要用到requests和BeautifulSoup這2個組合,requests請求xml檔案,BeautifulSoup進行解析,很快就能提取到我們需要的彈幕資訊,主要程式碼如下,很簡單:
程式執行截圖如下,已經成功解析出彈幕資訊:
3.對抓取的彈幕資訊進行簡單統計分析,這裡以詞雲進行顯示吧,更直觀、明瞭,還顯得高大上,主要是先進行分詞,然後再繪製詞雲,主要用到wordcloud和jieba這2個包,其中jieba用於中文分詞,wordcloud用於繪製詞雲,主要步驟如下:
安裝jieba,wordcloud這2個包,這裡直接在cmd視窗pip install安裝就行,如下:
分詞及繪製詞雲圖程式碼(背景圖片可以自行設定),如下,很簡單:
程式執行成功後,會在當前目錄下生成一個alice_color.png圖片,開啟這個圖片,就是我們生成好的詞雲圖,如下:
可以看得出來,“會員”,“富有”,“微笑”是詞頻最高的3個詞,看來看《動物世界》還需要會員,裡面的人物都很富有啊,哈哈哈。
至此,我們就完成了利用python來爬取嗶哩嗶哩的彈幕資訊,並進行了簡單的統計展示。總的來說,整個過程不難,只要抓包分析,找到對應的xml檔案,結合requests和BeautifulSoup,我們很快就能提取出所需的彈幕資訊,網上也有相關資料和教程,感興趣的可以搜一下,希望以上分享的內容能對你有所幫助吧。