回覆列表
-
1 # 啊窩額
-
2 # 不願透露姓名的張學友
樓主也是0基礎開始學python的,邊看影片邊學,看的是小甲魚的影片。
會寫爬蟲基礎是必不可少的,結構框架、語句等,按一天6小時學習的話我覺得一個星期左右就能把基礎的東西學習完,前提是你要自己多寫程式碼,多練,把課後題都做完。這樣就能爬最簡單的東西了,像爬圖片,網頁,谷歌翻譯這些,當然想要更加深入還要學習spider框架隱藏技術等。
Python相對其實程式語言來說是比較容易學的,適合新手學習,希望答案能幫助到你
-
3 # 一隻小coder
只是獲取資訊,會用requests庫get,post就行,最多再修改下headers,cookie. 然後後續你要考慮,去重,儲存,多執行緒,切換代理,再後續要考慮資料展示,大資料分析
如果知識單一的需求,不考慮深度學習的話。大概兩個小時左右,大概的流程是,下載安裝python,15分鐘左右找到爬蟲的教程,15分鐘pip庫,然後就開始複製貼上修改目標網址和資料儲存路徑。然後開始爬一直到結束。整個過程2小時。
我覺得帶著目的去學習,是最有效的學習方法。
學習python爬蟲的話必備知識點如下:
最首先要學的是基本的python語法知識學習python爬蟲經常用到的幾個內之苦:urllib、http這些用於下載網頁學習正則表示式re、BeautifulSoup(bs4)、Xpath等網頁解析工具之後就可以瞭解一些簡單的網站爬取,可以從百度開始。瞭解爬取資料的過程在上一步之後就可以瞭解一些爬蟲的反爬機制。header,robot,時間間隔,代理ip。隱含欄位等等之後還要了解一些特殊的網站爬取,解決登陸問題比如cookie還有動態頁面js模擬等問題學習selenium自動化工具,目的是可以應對非同步載入頁面在之後就是爬蟲和資料庫之間的結合,如何將我們爬取的資料進行儲存,Mysql還要學習多執行緒和非同步,這樣可以提高效率還有要了解的是爬蟲的框架如果有較大的資料需求的話,要學習redis分散式第一個爬蟲建議從urllib開始,應該很多人的第一個爬蟲程式碼都是從這裡開始的。短短的幾行程式碼就可以搞定一個看似很難的任務。從這裡給大家介紹一下:
urllib庫:這是python的內建庫,可以說爬蟲非常重要的一個部分。這個內之苦可以使用的就是完成向伺服器發出請求並且獲得網頁的功能。這裡說一下,python2.x和3.x是有一些出入的。
如何用python抓取一個指定的頁面?
首先建立一個urllib2_test01.py,然後輸入下面的程式碼:
最簡單的獲取一個url資訊程式碼只需要4行就可以搞定的,執行寫的python程式碼:
會得到下面的內容:
下面是編輯urllib_test03.py的過程
這裡知識一個初步的介紹。黑馬程式設計師的影片庫裡面好像有15分鐘學習爬蟲的影片,大家可以作為參考。
剛剛寫的程式碼,開啟之後看的不清楚,又重新更新的了圖片。