1.這裡假設我們要爬取的是《一路好戲》的影評資訊,包括評論人、等級、日期和評論內容,如下,地址https://movie.douban.com/subject/26985127/comments?start=0&limit=20&sort=new_score&status=P:
對應網頁原始碼內容如下,需要解析出以下內容:
2.對應網頁結構,爬取原始碼如下,主要用到requests和BeautifulSoup,其中requests用來請求頁面,BeautifulSoup用來解析頁面,提取出所需資訊,原理很簡單,實現也不難:
3.影評資訊爬取完成後,就需要儲存爬取到的資訊,這裡以存取到excel檔案為例,主要用到pandas的DataFrame類,很簡單,如下:
程式執行截圖如下,已經成功儲存豆瓣影評資訊:
至此,我們就完成了利用python來爬取豆瓣影評資訊。總的來說,整個過程不難,結合requests+BeautifulSoup,我們可以快速爬取豆瓣的影評資訊,對於初學者來說,這是一個很不錯的練習例項,後面熟悉後,也可以結合scrapy框架來爬取影評資訊,將爬取到結果儲存到mysql,mongodb等資料庫中,這裡我就不詳細介紹過程了,感興趣的可以搜一下相關資料,希望以上分享的內容能對你有所幫助吧。
1.這裡假設我們要爬取的是《一路好戲》的影評資訊,包括評論人、等級、日期和評論內容,如下,地址https://movie.douban.com/subject/26985127/comments?start=0&limit=20&sort=new_score&status=P:
對應網頁原始碼內容如下,需要解析出以下內容:
2.對應網頁結構,爬取原始碼如下,主要用到requests和BeautifulSoup,其中requests用來請求頁面,BeautifulSoup用來解析頁面,提取出所需資訊,原理很簡單,實現也不難:
3.影評資訊爬取完成後,就需要儲存爬取到的資訊,這裡以存取到excel檔案為例,主要用到pandas的DataFrame類,很簡單,如下:
程式執行截圖如下,已經成功儲存豆瓣影評資訊:
至此,我們就完成了利用python來爬取豆瓣影評資訊。總的來說,整個過程不難,結合requests+BeautifulSoup,我們可以快速爬取豆瓣的影評資訊,對於初學者來說,這是一個很不錯的練習例項,後面熟悉後,也可以結合scrapy框架來爬取影評資訊,將爬取到結果儲存到mysql,mongodb等資料庫中,這裡我就不詳細介紹過程了,感興趣的可以搜一下相關資料,希望以上分享的內容能對你有所幫助吧。