首頁>Club>
7
回覆列表
  • 1 # 使用者6102071616649

    爬蟲程式碼指的是網路爬蟲,又被稱為網頁蜘蛛,網路機器人,是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼,另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲。

    如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而爬蟲就是一隻小蜘蛛,會沿著網路抓取自己的獵物(資料)。

    從技術層面來說就是,透過程式模擬瀏覽器請求站點的行為,把站點返回的HTML程式碼/JSON資料/二進位制資料(圖片、影片) 爬到本地,進而提取自己需要的資料,存放起來使用。一般步驟為:

    1、發起請求。使用http庫向目標站點發起請求,即傳送一個Request。

    2、獲取響應內容。如果伺服器能正常響應,則會得到一個Response,包含:html,json,圖片,影片等。

    3、解析內容。解析二進位制資料:以wb的方式寫入檔案。

    4、儲存資料。

  • 中秋節和大豐收的關聯?
  • 1962年出生姓張的名人?