這種其實就是做一個採集工具了。
首先看你的需求,你需要採集一個網站的名稱和價格然後和另一個網站做對比。
那麼總結一下,也就是你需要採集兩個網站的資料(對比其實就是按照名稱關聯一下)
在這裡說一下爬蟲的幾個主要環節
1.網頁內容獲取(html獲取)
獲取的方法有很多種,最常見的就是直接透過get和post下載頁面html,基本所有語言都有現成的可以呼叫,當然你也會遇到非同步載入或者其他問題,這時候可以試著使用呼叫瀏覽器解決。
2.網頁內容提取(你需要的名稱和借個提取)
網頁內容提取就是透過正則表示式或者xpath獲取你需要的資料,這個應該不用我多說
3.提取內容入庫(獲取到的資料儲存到表格或者資料庫或者頁面顯示)
入庫的話就看你使用什麼樣的形式了,一般會用輕量一點的資料庫,這樣之後對於比價(關聯查詢)也會比較方便。
需要用到的知識大概就是一點程式設計基礎(看一些開源的爬蟲程式),一些網路基礎(抓包發包),會正則表示式或者xpath,有簡單的資料庫基礎,這樣感覺就差不多了。
當然現在網上的採集工具也很多,對於資料量不大或者採集比較簡單的可以不用自己寫程式,透過採集工具就可以完成。
這種其實就是做一個採集工具了。
首先看你的需求,你需要採集一個網站的名稱和價格然後和另一個網站做對比。
那麼總結一下,也就是你需要採集兩個網站的資料(對比其實就是按照名稱關聯一下)
在這裡說一下爬蟲的幾個主要環節
1.網頁內容獲取(html獲取)
獲取的方法有很多種,最常見的就是直接透過get和post下載頁面html,基本所有語言都有現成的可以呼叫,當然你也會遇到非同步載入或者其他問題,這時候可以試著使用呼叫瀏覽器解決。
2.網頁內容提取(你需要的名稱和借個提取)
網頁內容提取就是透過正則表示式或者xpath獲取你需要的資料,這個應該不用我多說
3.提取內容入庫(獲取到的資料儲存到表格或者資料庫或者頁面顯示)
入庫的話就看你使用什麼樣的形式了,一般會用輕量一點的資料庫,這樣之後對於比價(關聯查詢)也會比較方便。
需要用到的知識大概就是一點程式設計基礎(看一些開源的爬蟲程式),一些網路基礎(抓包發包),會正則表示式或者xpath,有簡單的資料庫基礎,這樣感覺就差不多了。
當然現在網上的採集工具也很多,對於資料量不大或者採集比較簡單的可以不用自己寫程式,透過採集工具就可以完成。