程式設計師必須知道的抓取資料外掛「Web Scriper」

首頁>技術>木子芳小芳2021-01-26 10:43

介紹webscraper -- 一款谷歌外掛

可以方便地抓取網頁上內容：文字、連結、圖片、表格等，而不需要寫一行程式碼。

1、安裝 webscraper 外掛

開啟谷歌瀏覽器，找到拓展程式，進入chrome網上應用商店。搜尋web scraper。

特別說明：

如果無法進入谷歌商店。

方法1：可以先安裝一個【谷歌助手】讓你可以訪問谷歌商店，然後同上。

方法2: 去這個外掛庫網站 https://crxdl.com/ 下載，實測可行。

下載下來之後，是一個crx檔案，然後開啟Chrome，重點是：只支援Chrome瀏覽器！

1.開啟Chrome瀏覽器設定，找到拓展程式。2.開啟瀏覽器開發者模式。5.成功部署webscraper。

基本安裝步驟就說到這裡了，下面讓我們來小試一下牛刀。

注意！！：將開發者工具，除錯成底部模式。

！！A 實操例子來啦！

抓取部落格第一頁的所有標題、內容、時間。

1、新增請求頭，網址為https://blog.csdn.net/blogdevteam/

2、理解工具含義

建立選擇器時需使用 Element preview 和 Data preview 功能以確保你選中了正確的網頁元素及資料。

1）selector - CSS 選擇器選取所需元素；

2）multiple - 如果要選擇多個記錄需勾選此項。從兩個或多個選中 multiple 的選擇器中提取的資料不會合併到一個單獨記錄中；【可以在element型別的父類選擇器元素中設定multiple，其子元素可以不設定multipe】

3）delay - 選擇器生效前的延遲時長；

4）parent selectors - 為此選擇器選擇母選擇器以產生選擇器樹形結構；

5）文字選擇器（Text selector）；

6）連結選擇器（Link selector）；

7）元素選擇器（Element selector）。

3 加一個element型別的元素，在_root 目錄下

Element 型別的元素，就是父類選擇器元素，可以把你要抓取的子元素捆起來

通常element 是下圖藍色區塊規則。

4、建立要抓取的內容規則，

父類選擇器建立成功後【即element型別元素】，我們可以在這個父親選擇器裡面建立新的子類選擇器，如下圖的title、content、TimeAndNum。

5、開始抓取 scrape附錄：你可能遇到的webscraper問題

1、抓取的資料，為什麼結果順序和網站不一樣？

Webscraper 抓取資料的結果，預設是無序的。若想要結果變得有序，需要安裝CouchDB，或者採用其它變通的方式，我們最後匯出的資料是csv格式，csv用excel開啟之後，你可以使用excel功能進行排序整齊。

2、抓取的內容除了excel，可以匯出為其它格式嗎？

不可以，webscraper 暫時只支援匯出excel。

3、資料抓取下來了，但是錯位，怎麼回事？

資料錯位，是因為你沒有建立子選擇器。

你應該新建一個Element 作為父選擇器，把要抓取的資訊，作為子選擇器，這樣抓取的資訊就不會錯位。

4、抓取多頁資料

5、對滾動載入的資料，如何抓取？

6、如何對圖片 src進行抓取？

7、載入更多這種觸發的多頁資料如何抓取？

∨ Github Actions還是Jenkins？該怎麼選？

熱門排行