回覆列表
  • 1 # 使用者6934125671385

    用Beautiful Soup這類解析模組: Beautiful Soup 是用Python寫的一個HTML/XML的解析器,它可以很好的處理不規範標記並生成剖析樹(parse tree); 它提供簡單又常用的導航(navigating),搜尋以及修改剖析樹的操作; 用urllib或者urllib2(推薦)將頁面的html程式碼下載後,用beautifulsoup解析該html; 然後用beautifulsoup的查詢模組或者正則匹配將你想獲得的內容找出來,就可以進行相關處理了,例如: from BeautifulSoup import BeautifulSoup html = "

    test body

    " soup = BeautifulSoup(html) soup.contents[0]

    .name

    # u"html" soup.comtents[0].contents[0]

    .name

    # u"head" head = soup.comtents[0].contents[0]

    head.parent.name

    # u"html"

    head.next

    # u"<title>test</title>

  • 中秋節和大豐收的關聯?
  • 頭髮大片頭皮屑怎麼辦?