回覆列表
-
1 # Bean蠶豆
-
2 # 一把勺子
1.安裝anaconda,網上教程一大把,安裝無難度,而且這個安裝好之後,python自然就安裝好了;
2.安裝scrapy,利用anaconda安裝scrapy,anaconda是由視覺化介面的,安裝scrapy非常簡單,uninstall裡搜尋scrapy,點選右下角install按鈕安裝即可,scrapy需要的各種依賴就都安裝好了,如果條件允許一定要用anaconda,不然scrapy的安裝之繁瑣,容易導致沒入門就放棄;
3.如果實在anaconda不好裝,出門左轉去裝pip,然後哦一步一步的安裝scrapy需要的所有依賴,耐心;
4.安裝好scrapy之後,cmd進入工程目錄,用下面兩句話建立專案
scrapy startproject 工程名
scrapy genspider 爬蟲名
5.看教程,分析網站,寫程式碼,這當然是核心了,需要日積月累;
6.看結果,cmd進入工程目錄,用下邊一句話啟動爬蟲:
scrapy
crawl 爬蟲名朋友加油,學好賺大錢,一起共勉!
既然提出這樣的問題,個人認為,還是對scrapy有點了解,至少聽說過scrapy的作用。scrapy是一個爬蟲框架。網路爬蟲是指從網際網路上自動爬蟲相關的資料供爬取者使用。
scrapy是python中爬蟲框架最流行的框架之一,簡單易用、靈活易拓展scrapy作為爬蟲框架,在python中深受歡迎,主要在於它本身的易用性、可拓展性和豐富、活躍的社群。使用scrapy可以高效地爬取我們想要網站的資料。大型的爬蟲程式應用在搜尋引擎、廣告等領域,個人則一般爬取需要用的資料。
scrapy的整體結構,item、spider、pipelineitem主要用於描述希望爬取的資料資訊;
spider主要是爬蟲的相關資料邏輯,用於提取資料和提取後續頁面的url;
pipeline可以理解為和資料儲存、轉化相關,當我們需要轉化一些資料格式,比如美元符號轉化成人民幣,就可以透過在此定義相關函式達到相應的目的,同時我們希望我們爬取的資料能夠永久地儲存在伺服器中,就可以透過此定義相關的類、函式,達到儲存的目的。
scrapy的命令scrapy startproject [projectname],透過這樣的命令就可以定義一個爬蟲;
scrapy crawl [projectname],就可以使爬蟲開始工作。
總之,scrapy爬蟲框架的使用還是比較方便的,當然,比較複雜的應用還需要我們花時間去研究,透過簡單的幾個命令就可以做一個爬蟲,scrapy讓爬蟲更加的方便。