首頁>Club>
我想爬取網頁的內容然而,這樣只能獲取到原始碼。
23
回覆列表
  • 1 # 設計與程式設計學習

    可以安裝BeautifulSoup,然後查詢DOM找到你要的文字標籤

    例如是<div><p>文字內容</p></div>

    使用get_text()

    我用的python3

    from bs4 import BeautifulSoup

    from request.urllib import urlopen

    html = urlopen("網址")

    bsObj =BeautifulSoup(html,"html.parser")

    getP = bsObj.find("div",{"id":"content"}).find("p")

    contentText = getP.get_text()

    #contentText就是你要的文字內容

    print(ccontentText)

    可能會有錯誤,大概就是這麼個意思

    可能你用別的庫,或者python2會有點區別

    你還不會抓取文字內容,應該剛學,建議你先把基礎內容學好,看書《python網路資料採集》,看教程"崔慶才的個人網站"

    這些東西網上很好查的,多查,查不到了再問。

    後面難的東西還很多,要想自學就要多自己動手

    祝你學有所成

  • 2 # IT老友

    這裡簡單示例,涉及 http,requests,html,正則表示式,lxml,beautiful soup 相關知識請自行學習。

    1:根據你要爬取的網頁構造http頭。關於http頭的詳細解釋請看《http權威指南》。

    比如你要爬取豆瓣讀書,先開啟谷歌瀏覽器,按F12開啟開發人員工具,輸入https://book.douban.com/tag/,見下圖

    headers下面的Request Headers就是你需要構造,一般來說,User-Agent是必須。Cookie許多網址也是需要的。具體哪些需要視不同網頁的需求。這裡豆瓣讀書,僅需要 User-Agent,那麼構造如下:

    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36",}

    2:利用requests模組傳送請求(請在程式碼的最前面匯入,即import requests)。

    url ="https://book.douban.com/tag/"

    r = requests.get(url,headers)

    r就是網頁的回覆,網頁的原始碼就在r.text裡面,print(r.text)即可看到網頁的原始碼,如下圖

    3:利用正則表示式/lxml/beautiful soup提取文字,效率依次從高到低,難度依次從高到低。這裡以lxml為例提取所有的圖書標籤

    from lxml import etree

    html = etree.HTML(r.text)

    taglist = html.xpath("//table[@class="tagCol"]/tbody/tr/td/a/text()")

    print(taglist)

    即可看到:

    ["小說", "外國文學", "文學", "隨筆", "中國文學", "經典", "日本文學", "散文", "村上春樹", "詩歌", "童話", "兒童文學", "古典文學", "王小波", "雜文", "名著", "餘華", "張愛玲", "當代文學", "錢鍾書", "外國名著", "魯迅", "詩詞", "茨威格", "米蘭·昆德拉", "杜拉斯", "港臺", "漫畫", "推理", "繪本", "青春", "東野圭吾", "科幻", "言情", "懸疑", "武俠", "奇幻", "日本漫畫", "韓寒", "耽美", "亦舒", "推理小說", "三毛", "網路小說", "安妮寶貝", "郭敬明", "穿越", "金庸", "阿加莎·克里斯蒂", "輕小說", "科幻小說", "幾米", "青春文學", "魔幻", "幾米", "張小嫻", "J.K.羅琳", "古龍", "高木直子", "滄月", "落落", "張悅然", "校園", "歷史", "心理學", "哲學", "傳記", "文化", "社會學", "藝術", "設計", "社會", "政治", "建築", "宗教", "電影", "數學", "政治學", "回憶錄", "中國歷史", "思想", "國學", "人文", "音樂", "人物傳記", "繪畫", "藝術史", "戲劇", "佛教", "軍事", "二戰", "西方哲學", "近代史", "考古", "自由主義", "美術", "愛情", "旅行", "生活", "成長", "勵志", "心理", "攝影", "女性", "職場", "教育", "美食", "遊記", "靈脩", "健康", "情感", "手工", "兩性", "養生", "人際關係", "家居", "自助遊", "經濟學", "管理", "經濟", "商業", "金融", "投資", "營銷", "創業", "理財", "廣告", "股票", "企業史", "策劃", "科普", "網際網路", "程式設計", "科學", "互動設計", "使用者體驗", "演算法", "科技", "web", "UE", "通訊", "互動", "UCD", "神經網路", "程式"]

    以上是提取單個網頁文字的原始碼,在需要大量爬取的時候,推薦使用scrapy框架,爬蟲神器。祝您學習愉快

  • 中秋節和大豐收的關聯?
  • 舊改和棚改有什麼區別?