爬蟲程式碼指的是網路爬蟲,又被稱為網頁蜘蛛,網路機器人,是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而爬蟲就是一隻小蜘蛛,會沿著網路抓取自己的獵物(資料)。
從技術層面來說就是,透過程式模擬瀏覽器請求站點的行為,把站點返回的HTML程式碼/JSON資料/二進位制資料(圖片、影片) 爬到本地,進而提取自己需要的資料,存放起來使用。一般步驟為:
1、發起請求。使用http庫向目標站點發起請求,即傳送一個Request。
2、獲取響應內容。如果伺服器能正常響應,則會得到一個Response,包含:html,json,圖片,影片等。
3、解析內容。解析二進位制資料:以wb的方式寫入檔案。
4、儲存資料。
爬蟲程式碼指的是網路爬蟲,又被稱為網頁蜘蛛,網路機器人,是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。
如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而爬蟲就是一隻小蜘蛛,會沿著網路抓取自己的獵物(資料)。
從技術層面來說就是,透過程式模擬瀏覽器請求站點的行為,把站點返回的HTML程式碼/JSON資料/二進位制資料(圖片、影片) 爬到本地,進而提取自己需要的資料,存放起來使用。一般步驟為:
1、發起請求。使用http庫向目標站點發起請求,即傳送一個Request。
2、獲取響應內容。如果伺服器能正常響應,則會得到一個Response,包含:html,json,圖片,影片等。
3、解析內容。解析二進位制資料:以wb的方式寫入檔案。
4、儲存資料。