首頁>Club>
最近在學Python爬蟲,寫指令碼進行模擬登入時,對很多名詞一知半解
18
回覆列表
  • 1 # 小小猿愛嘻嘻

    爬蟲其實就是一個數據獲取的過程,無非就是兩步,請求頁面,解析資料,下面我大概介紹一下入門爬蟲所需要掌握的基本知識:

    1.要具有一定的前端知識,最起碼應該能大概看懂網頁內容,像基本的html元素,css樣式,javascript等,不要求熟練掌握,這些是最基礎的東西,資料都在網頁裡面巢狀著,要是連基本的網頁都不會,如何解析資料呢?所以花個一兩天時間瞭解一下網頁知識:

    2.要會進行抓包分析,會使用瀏覽器自帶的開發者工具。網頁中有些資料是動態載入的,只在請求網頁時才載入資料,在網頁原始碼中是不顯示的,所以你需要會進行抓包分析,解析json資料等。我們經常模擬登入時,也需要進行抓包分析,需要post提交哪些內容等,只有在抓包分析後,才能構建相關提交資料:

    3.防止被禁掉。短時間內頻繁的訪問伺服器,很有可能會被伺服器識別為爬蟲,禁掉IP,這個時候你就需要使用IP代理池等,儘可能不被伺服器發現。

    4.儲存資料。爬取下來的資料,我們需要進行儲存,如果資料量大的話,這個時候你就需要了解一些常用的資料庫的使用,像mysql,mongodb等,方便查詢也方便管理:

    5.最後就是學一些爬蟲常用的框架,可以明顯提高開發效率,避免重複造輪子,像python的開源爬蟲框架scrapy等,使用起來也更快捷:

  • 中秋節和大豐收的關聯?
  • 馬自達品牌怎麼樣?馬自達CX-9怎麼樣?