介紹webscraper -- 一款谷歌外掛
可以方便地抓取網頁上內容:文字、連結、圖片、表格等,而不需要寫一行程式碼。
1、安裝 webscraper 外掛開啟谷歌瀏覽器,找到拓展程式,進入chrome網上應用商店。搜尋web scraper。
特別說明:
如果無法進入谷歌商店。
方法1:可以先安裝一個【谷歌助手】讓你可以訪問谷歌商店,然後同上。
方法2: 去這個外掛庫網站 https://crxdl.com/ 下載,實測可行。
下載下來之後,是一個crx檔案,然後開啟Chrome,重點是:只支援Chrome瀏覽器!
1.開啟Chrome瀏覽器設定,找到拓展程式。2.開啟瀏覽器開發者模式。5.成功部署webscraper。基本安裝步驟就說到這裡了,下面讓我們來小試一下牛刀。
注意!!:將開發者工具,除錯成底部模式。
!!A 實操例子來啦!抓取部落格第一頁的所有標題、內容、時間。
1、新增請求頭,網址為https://blog.csdn.net/blogdevteam/
2、理解工具含義
建立選擇器時需使用 Element preview 和 Data preview 功能以確保你選中了正確的網頁元素及資料。
1)selector - CSS 選擇器選取所需元素;
2)multiple - 如果要選擇多個記錄需勾選此項。從兩個或多個選中 multiple 的選擇器中提取的資料不會合併到一個單獨記錄中;【可以在element型別的父類選擇器元素中設定multiple,其子元素可以不設定multipe】
3)delay - 選擇器生效前的延遲時長;
4)parent selectors - 為此選擇器選擇母選擇器以產生選擇器樹形結構;
5)文字選擇器(Text selector);
6)連結選擇器(Link selector);
7)元素選擇器(Element selector)。
3 加一個element型別的元素,在_root 目錄下
Element 型別的元素,就是父類選擇器元素,可以把你要抓取的子元素捆起來
通常element 是下圖藍色區塊規則。
4、建立要抓取的內容規則,父類選擇器建立成功後【即element型別元素】,我們可以在這個父親選擇器裡面建立新的子類選擇器,如下圖的title、content、TimeAndNum。
5、開始抓取 scrape附錄:你可能遇到的webscraper問題1、抓取的資料,為什麼結果順序和網站不一樣?
Webscraper 抓取資料的結果,預設是無序的。若想要結果變得有序,需要安裝CouchDB,或者採用其它變通的方式,我們最後匯出的資料是csv格式,csv用excel開啟之後,你可以使用excel功能進行排序整齊。
2、抓取的內容除了excel,可以匯出為其它格式嗎?
不可以,webscraper 暫時只支援匯出excel。
3、資料抓取下來了,但是錯位,怎麼回事?
資料錯位,是因為你沒有建立子選擇器。
你應該新建一個Element 作為父選擇器,把要抓取的資訊,作為子選擇器,這樣抓取的資訊就不會錯位。
4、抓取多頁資料
5、對滾動載入的資料, 如何抓取?
6、如何對圖片 src進行抓取?
7、載入更多 這種觸發的多頁資料 如何抓取?