-
1 # Bean蠶豆
-
2 # 路邊小生
Python小白想爬取網路資料?
python因為是老語言,所以很多框架都很成熟,社群支援也很友好!
那麼話說回來,使用python怎麼進行網路爬蟲,究竟需要什麼知識呢?
1、網頁的基礎知識
假如你想抓包拿資料,那就另外說。
要想爬取網頁資料,肯定需要網頁的基礎知識,知道網頁的構建語法,所以要了解html,css,js的這些基礎知識。
2、python基礎知識
還要必須知道python的語法知識,這樣才能寫程式碼呀!
3、python爬蟲框架的使用
主流的scrapy的使用,畢竟爬蟲肯定不是單執行緒爬去,被人開源的框架已經非常強大了
例如一些教學網站就推出一些教程
小生自己,當初學習後,去網上爬了很多好東西!學了一會,爬了半個鍾,大概十萬條記錄,存在我電腦的資料庫後,每次用sql就可以查詢了,不用上網查種子了
學下去就知道自己缺什麼,再去補回來,哪裡不會學哪裡!加油!
-
3 # PythonDeveloper
1. 提出這個問題,想必你已經對Python的基礎知識有所瞭解,如果我猜錯了,那麼學習Python的基礎語法知識是前提。當然不用深入學習,只需要在之後爬資料的時候帶著學習不懂的就可以了。在運用中學習是更容易消化知識的。
2. 你的目的很清晰,想爬網路資料。我更建議你直接學習Scrapy爬蟲框架,分分鐘上手。對於新手來說,我不提倡重複造輪子,我們所學的東西都是來服務於解決實際問題的,怎麼效率最高就怎麼來,有好的框架就拿來用。
3. 怎麼開始學習呢?Python語法必須要會,然後直接學習Scrapy,網上有很多教程,學會百度和Google是必不可少的技能。然後在學習Scrapy的時候,你會發現一點點又學會了檢視網頁結構,甚至還了解到了mysql等資料庫,當然這些都是在學習Scrapy時慢慢積累的。如果剛開始就去啃這些知識,很容易失去耐心的,因為你的目的是去做爬蟲,就去圍繞學習Scrapy框架來擴充知識,這樣更有目的和決心。
祝你成功^_^
回覆列表
python小白想爬取網路資料,個人的經驗是建議你先打好python基礎,雖然絕大部分python不會有很複雜的業務邏輯,但是頁面的HTML結構你要清楚,python的語法也要清楚,相比python語法,對於爬蟲,可能html結構更需要注意。
xpath語法,正則表示式都是提取網頁資料的一種手段,相比較而言xpath效率也更些,最主要的是簡潔,邏輯清楚,正則表示式我有的時候自己寫了什麼都不知道這是我用request爬蟲醫院資訊裡自己寫的程式碼示例,裡面就有xpath的處理邏輯,當然少不了迴圈的處理,基本上一個爬蟲這兩部分是少不了的,如果你要寫的更有序,高效一些,就需要用到類、函式等高階的用法。
框架,沒錯,框架可以讓我們更加關注業務邏輯本身,而不是程式碼書寫上在這裡我推薦SCRAPY這個框架,簡單易用、跨平臺等多種特性,都可以使我們很好地上手剛絕爬蟲。以我爬取詩詞網的資料為例,只需要重點關注網頁資料的提取和最終詳情頁面的欄位提取這兩項內容。
對於一個小白來說,再快上手網路爬蟲,也需要了解基本的Python語法和HTML的頁面結構,不然不知道需要提取那些資料,即使網頁爬取下來。