回覆列表
  • 1 # 使用者7729591585255

    這種其實就是做一個採集工具了。

    首先看你的需求,你需要採集一個網站的名稱和價格然後和另一個網站做對比。

    那麼總結一下,也就是你需要採集兩個網站的資料(對比其實就是按照名稱關聯一下)

    在這裡說一下爬蟲的幾個主要環節

    1.網頁內容獲取(html獲取)

    獲取的方法有很多種,最常見的就是直接透過get和post下載頁面html,基本所有語言都有現成的可以呼叫,當然你也會遇到非同步載入或者其他問題,這時候可以試著使用呼叫瀏覽器解決。

    2.網頁內容提取(你需要的名稱和借個提取)

    網頁內容提取就是透過正則表示式或者xpath獲取你需要的資料,這個應該不用我多說

    3.提取內容入庫(獲取到的資料儲存到表格或者資料庫或者頁面顯示)

    入庫的話就看你使用什麼樣的形式了,一般會用輕量一點的資料庫,這樣之後對於比價(關聯查詢)也會比較方便。

    需要用到的知識大概就是一點程式設計基礎(看一些開源的爬蟲程式),一些網路基礎(抓包發包),會正則表示式或者xpath,有簡單的資料庫基礎,這樣感覺就差不多了。

    當然現在網上的採集工具也很多,對於資料量不大或者採集比較簡單的可以不用自己寫程式,透過採集工具就可以完成。

  • 中秋節和大豐收的關聯?
  • 男主角被外星人改造成女生什麼人知道啊?