Python如何爬取網頁文字內容？

首頁>Club>吳建義2021-01-16 08:11

Python如何爬取網頁文字內容？

我想爬取網頁的內容然而，這樣只能獲取到原始碼。

回覆列表

1 # 設計與程式設計學習

可以安裝BeautifulSoup，然後查詢DOM找到你要的文字標籤

例如是<div><p>文字內容</p></div>

使用get_text()

我用的python3

from bs4 import BeautifulSoup
from request.urllib import urlopen

html = urlopen("網址")

bsObj =BeautifulSoup(html,"html.parser")

getP = bsObj.find("div",{"id":"content"}).find("p")

contentText = getP.get_text()

#contentText就是你要的文字內容

print(ccontentText)

可能會有錯誤，大概就是這麼個意思

可能你用別的庫，或者python2會有點區別

你還不會抓取文字內容，應該剛學，建議你先把基礎內容學好，看書《python網路資料採集》,看教程"崔慶才的個人網站"
這些東西網上很好查的，多查，查不到了再問。

後面難的東西還很多，要想自學就要多自己動手

祝你學有所成

2 # IT老友

這裡簡單示例，涉及 http，requests，html，正則表示式，lxml，beautiful soup 相關知識請自行學習。

1：根據你要爬取的網頁構造http頭。關於http頭的詳細解釋請看《http權威指南》。

比如你要爬取豆瓣讀書，先開啟谷歌瀏覽器，按F12開啟開發人員工具，輸入https://book.douban.com/tag/，見下圖
headers下面的Request Headers就是你需要構造，一般來說，User-Agent是必須。Cookie許多網址也是需要的。具體哪些需要視不同網頁的需求。這裡豆瓣讀書，僅需要 User-Agent，那麼構造如下：

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36",}

2：利用requests模組傳送請求（請在程式碼的最前面匯入，即import requests）。
url ="https://book.douban.com/tag/"

r = requests.get(url,headers)

r就是網頁的回覆，網頁的原始碼就在r.text裡面,print（r.text）即可看到網頁的原始碼，如下圖

3：利用正則表示式/lxml/beautiful soup提取文字,效率依次從高到低，難度依次從高到低。這裡以lxml為例提取所有的圖書標籤

from lxml import etree

html = etree.HTML(r.text)

taglist = html.xpath("//table[@class="tagCol"]/tbody/tr/td/a/text()")
print(taglist)

即可看到：

["小說", "外國文學", "文學", "隨筆", "中國文學", "經典", "日本文學", "散文", "村上春樹", "詩歌", "童話", "兒童文學", "古典文學", "王小波", "雜文", "名著", "餘華", "張愛玲", "當代文學", "錢鍾書", "外國名著", "魯迅", "詩詞", "茨威格", "米蘭·昆德拉", "杜拉斯", "港臺", "漫畫", "推理", "繪本", "青春", "東野圭吾", "科幻", "言情", "懸疑", "武俠", "奇幻", "日本漫畫", "韓寒", "耽美", "亦舒", "推理小說", "三毛", "網路小說", "安妮寶貝", "郭敬明", "穿越", "金庸", "阿加莎·克里斯蒂", "輕小說", "科幻小說", "幾米", "青春文學", "魔幻", "幾米", "張小嫻", "J.K.羅琳", "古龍", "高木直子", "滄月", "落落", "張悅然", "校園", "歷史", "心理學", "哲學", "傳記", "文化", "社會學", "藝術", "設計", "社會", "政治", "建築", "宗教", "電影", "數學", "政治學", "回憶錄", "中國歷史", "思想", "國學", "人文", "音樂", "人物傳記", "繪畫", "藝術史", "戲劇", "佛教", "軍事", "二戰", "西方哲學", "近代史", "考古", "自由主義", "美術", "愛情", "旅行", "生活", "成長", "勵志", "心理", "攝影", "女性", "職場", "教育", "美食", "遊記", "靈脩", "健康", "情感", "手工", "兩性", "養生", "人際關係", "家居", "自助遊", "經濟學", "管理", "經濟", "商業", "金融", "投資", "營銷", "創業", "理財", "廣告", "股票", "企業史", "策劃", "科普", "網際網路", "程式設計", "科學", "互動設計", "使用者體驗", "演算法", "科技", "web", "UE", "通訊", "互動", "UCD", "神經網路", "程式"]
以上是提取單個網頁文字的原始碼，在需要大量爬取的時候，推薦使用scrapy框架，爬蟲神器。祝您學習愉快

劇多

Python如何爬取網頁文字內容？

相關內容