回覆列表
-
1 # 浮雲半載
-
2 # 小小猿愛嘻嘻
這個非常簡單,requests+BeautifulSoup組合就可以輕鬆實現,下面我簡單介紹一下,感興趣的朋友可以自己嘗試一下,這裡以爬取糗事百科網站資料(靜態網站)為例:
1.首先,安裝requets模組,這個直接在cmd視窗輸入命令“pip install requests”就行,如下:
2.接著安裝bs4模組,這個模組包含了BeautifulSoup,安裝的話,和requests一樣,直接輸入安裝命令“pip install bs4”即可,如下:
3.最後就是requests+BeautifulSoup組合爬取糗事百科,requests用於請求頁面,BeautifulSoup用於解析頁面,提取資料,主要步驟及截圖如下:
接著開啟對應網頁原始碼,就可以直接看到欄位資訊,內容如下,巢狀在各個標籤中,後面就是解析這些標籤提取資料:基於上面網頁內容,測試程式碼如下,非常簡單,直接find對應標籤,提取文字內容即可:
程式執行截圖如下,已經成功抓取到網站資料:
至此,我們就完成了使用python來爬去靜態網站。總的來說,整個過程非常簡單,也是最基本的爬蟲內容,只要你有一定的python基礎,熟悉一下上面的示例,很快就能掌握的,當然,你也可以使用urllib,正則表示式匹配等,都行,網上也有相關教程和資料,介紹的非常詳細,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言進行補充。
用python抓取網頁,應該是要用到爬蟲技術了,python做爬蟲還是比較在行的。
一般簡單點的用urllib庫傳送request請求然後再解析響應的資料包即可。不過不建議直接用urllib
因為不太好用,建議用requests包,這個包裡封裝好了很多東西,然後可以自己解析,也可以用bs,beautiful soup做解析或者什麼xml的一個東西記不太清了。所有這些東西都可以用pip安裝。先把pip升級到最新版本,然後再依次安裝python,request,bs。如果複雜點的可以用爬蟲框架crawler和scrapy,spider。基本上你要考慮到請求,解析,資料儲存,去重等等。
另外還有一點就是很多網站做了防爬防護,就要牽涉到介面的加解密破解和反防爬處理了,這有點複雜。
手打字辛苦,如果有用請採納加精。