回覆列表
-
1 # 叫我蘇鑫阿
-
2 # 山城野老
安裝一個requests框架:用於發起網路請求到伺服器端,如get、post請求。
安裝 requests
pip install requests
發起 get 請求
#不包含任何引數的請求
r = requests.get(url_get)
發起 post 請求
#不包含任何引數的請求
r = requests.post(url_post)
其實python很簡單,你查下requests的使用方法,網上非常多和詳細,如果是0基礎的新手,建議你上bilibili學習
想瀏覽器一樣獲取網路請求,不僅僅是傳一個url,一些引數就足夠的,因為伺服器在解析你請求的同時,為了防止機器爬蟲佔用伺服器資源,一般都會做出反爬策略。
通常來講,各家瀏覽器的標識不一樣,所以我們要在請求前,預置好瀏覽器標識,來讓伺服器識別。
然後這樣伺服器會認為我們是瀏覽器了。對於公共訪問的頁面開始足夠了,但是如果對於有登入和許可權的頁面,僅僅這樣還不夠。我們還需要帶上伺服器端給我們的cookie,這樣伺服器就會認為,這是一個使用者並且在瀏覽器上訪問了我的請求,然後就會返回給我們資料。
如果你覺得這樣就夠了,那麼大錯特錯,有一些甚至伺服器會對你訪問頻率做限制,爬蟲程式跑起來的速度可不是蓋的,太快的爬蟲更加佔用伺服器資源,伺服器為了減少這樣的損失根據我們頻率對我們的ip做出鎖死操作,並且在一段時間不讓訪問。所以一般我們會對程式做延時爬蟲,比如每秒訪問兩次這類的策略防止伺服器鎖死ip。
通過我們模擬瀏覽器的種種特徵,現在伺服器就會認為我們就是一個真人操作伺服器,這時候向伺服器要什麼資料都會給咱們。資料到手就是自己發揮的時候了。
看,這是我我外接酷q機器人的外掛sdk後,通過爬蟲,做的學校成績查詢機器人。
有沒有很酷嘿嘿~( ̄▽ ̄~)~