首頁>技術>

介紹webscraper -- 一款谷歌外掛

可以方便地抓取網頁上內容:文字、連結、圖片、表格等,而不需要寫一行程式碼。

1、安裝 webscraper 外掛

開啟谷歌瀏覽器,找到拓展程式,進入chrome網上應用商店。搜尋web scraper。

特別說明:

如果無法進入谷歌商店。

方法1:可以先安裝一個【谷歌助手】讓你可以訪問谷歌商店,然後同上。

方法2: 去這個外掛庫網站 https://crxdl.com/ 下載,實測可行。

下載下來之後,是一個crx檔案,然後開啟Chrome,重點是:只支援Chrome瀏覽器!

1.開啟Chrome瀏覽器設定,找到拓展程式。2.開啟瀏覽器開發者模式。5.成功部署webscraper。

基本安裝步驟就說到這裡了,下面讓我們來小試一下牛刀。

注意!!:將開發者工具,除錯成底部模式。

!!A 實操例子來啦!

抓取部落格第一頁的所有標題、內容、時間。

1、新增請求頭,網址為https://blog.csdn.net/blogdevteam/

2、理解工具含義

建立選擇器時需使用 Element preview 和 Data preview 功能以確保你選中了正確的網頁元素及資料。

1)selector - CSS 選擇器選取所需元素;

2)multiple - 如果要選擇多個記錄需勾選此項。從兩個或多個選中 multiple 的選擇器中提取的資料不會合併到一個單獨記錄中;【可以在element型別的父類選擇器元素中設定multiple,其子元素可以不設定multipe】

3)delay - 選擇器生效前的延遲時長;

4)parent selectors - 為此選擇器選擇母選擇器以產生選擇器樹形結構;

5)文字選擇器(Text selector);

6)連結選擇器(Link selector);

7)元素選擇器(Element selector)。

3 加一個element型別的元素,在_root 目錄下

Element 型別的元素,就是父類選擇器元素,可以把你要抓取的子元素捆起來

通常element 是下圖藍色區塊規則。

4、建立要抓取的內容規則,

父類選擇器建立成功後【即element型別元素】,我們可以在這個父親選擇器裡面建立新的子類選擇器,如下圖的title、content、TimeAndNum。

5、開始抓取 scrape附錄:你可能遇到的webscraper問題

1、抓取的資料,為什麼結果順序和網站不一樣?

Webscraper 抓取資料的結果,預設是無序的。若想要結果變得有序,需要安裝CouchDB,或者採用其它變通的方式,我們最後匯出的資料是csv格式,csv用excel開啟之後,你可以使用excel功能進行排序整齊。

2、抓取的內容除了excel,可以匯出為其它格式嗎?

不可以,webscraper 暫時只支援匯出excel。

3、資料抓取下來了,但是錯位,怎麼回事?

資料錯位,是因為你沒有建立子選擇器。

你應該新建一個Element 作為父選擇器,把要抓取的資訊,作為子選擇器,這樣抓取的資訊就不會錯位。

4、抓取多頁資料

5、對滾動載入的資料, 如何抓取?

6、如何對圖片 src進行抓取?

7、載入更多 這種觸發的多頁資料 如何抓取?

9
最新評論
  • BSA-TRITC(10mg/ml) TRITC-BSA 牛血清白蛋白改性標記羅丹明
  • Github Actions還是Jenkins?該怎麼選?