回覆列表
-
1 # 雁過無聲song
-
2 # 小小猿愛嘻嘻
這個非常簡單,大眾點評的資料是靜態載入的,直接巢狀在網頁原始碼中,所以直接爬取就行,下面我簡單介紹一下實現過程,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
2.接著右鍵檢查元素,就可以看到對應的網頁標籤資訊,包括屬性、文字等,裡面就有我們需要爬取的內容,如下:
3.然後就是針對上面的網頁結構編寫對應程式碼解析網頁內容,這裡主要用到requests+BeautifulSoup組合,其中requests用於請求頁面,BaautifulSoup用於解析頁面,提取內容,測試程式碼如下,非常簡單:
4.最後就是儲存資料到mysql資料庫中,主要用到pymysql這個模組,用於插入資料到mysql資料庫中,安裝的話,直接輸入命令“pip install pymysql”就行,安裝完成後,新建一個dzdp資料表,包含有user,rank,content這3個欄位,接著就可以直接編寫程式碼插入資料了,測試程式碼如下:
至此,我們就完成了利用Python爬取大眾點評評論資訊並儲存到mysql資料庫中。總的來說,整個過程非常簡單,因為是靜態載入的資料,所以直接解析網頁就行,如果是動態的,就需要抓包分析了,只要你熟悉一下上面的程式碼,很快就能掌握的,當然,你也可以使用scrapy爬蟲框架爬取,都可以,網上也有相關教程和資料,非常豐富,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言。
首先用Python編寫這樣一個爬蟲是沒有問題的,其次是你要會python程式設計。
思路是這樣的:
1、熟悉網路爬蟲的特性和工作原理,網頁HTML語法等方面的知識。
2、為Python安裝相應的模組和支援庫,如requests、bs4、pyMySQL等,為後續程式碼編寫創造環境和條件。
3、程式碼編寫,推薦使用pycharm,並養成良好的程式碼規範。
4、利用瀏覽器的開發者工具(F12鍵)或者用檢視原始碼的方法,分析網站程式碼的結構,關鍵字,語法,CSS,JS,框架等資訊,找到需要的,寫一個函式呼叫就可以了。如:def getInfo(),最後把獲取到的資訊寫入資料庫就可以了。
具體程式碼自己去寫吧!
以上僅供參考。