如何利用Python抓取靜態網站及其內部資源？

首頁>Club>王王王儷2021-03-25 17:11

如何利用Python抓取靜態網站及其內部資源？

回覆列表

1 # 浮雲半載

用python抓取網頁，應該是要用到爬蟲技術了，python做爬蟲還是比較在行的。

一般簡單點的用urllib庫傳送request請求然後再解析響應的資料包即可。不過不建議直接用urllib

因為不太好用，建議用requests包，這個包裡封裝好了很多東西，然後可以自己解析，也可以用bs，beautiful soup做解析或者什麼xml的一個東西記不太清了。所有這些東西都可以用pip安裝。先把pip升級到最新版本，然後再依次安裝python，request，bs。如果複雜點的可以用爬蟲框架crawler和scrapy，spider。基本上你要考慮到請求，解析，資料儲存，去重等等。
另外還有一點就是很多網站做了防爬防護，就要牽涉到介面的加解密破解和反防爬處理了，這有點複雜。

手打字辛苦，如果有用請採納加精。

2 # 小小猿愛嘻嘻

這個非常簡單，requests+BeautifulSoup組合就可以輕鬆實現，下面我簡單介紹一下，感興趣的朋友可以自己嘗試一下，這裡以爬取糗事百科網站資料（靜態網站）為例：

1.首先，安裝requets模組，這個直接在cmd視窗輸入命令“pip install requests”就行，如下：
2.接著安裝bs4模組，這個模組包含了BeautifulSoup，安裝的話，和requests一樣，直接輸入安裝命令“pip install bs4”即可，如下：

3.最後就是requests+BeautifulSoup組合爬取糗事百科，requests用於請求頁面，BeautifulSoup用於解析頁面，提取資料，主要步驟及截圖如下：
接著開啟對應網頁原始碼，就可以直接看到欄位資訊，內容如下，巢狀在各個標籤中，後面就是解析這些標籤提取資料：
基於上面網頁內容，測試程式碼如下，非常簡單，直接find對應標籤，提取文字內容即可：

程式執行截圖如下，已經成功抓取到網站資料：

至此，我們就完成了使用python來爬去靜態網站。總的來說，整個過程非常簡單，也是最基本的爬蟲內容，只要你有一定的python基礎，熟悉一下上面的示例，很快就能掌握的，當然，你也可以使用urllib，正則表示式匹配等，都行，網上也有相關教程和資料，介紹的非常詳細，感興趣的話，可以搜一下，希望以上分享的內容能對你有所幫助吧，也歡迎大家評論、留言進行補充。

∧ 中秋節和大豐收的關聯？

∨ 有七千左右價效比高的踏板摩托車推薦嗎？

熱門排行

劇多

如何利用Python抓取靜態網站及其內部資源？