回覆列表
  • 1 # RONE

    爬蟲最難的是正則表示式,你把正則搞清楚了,你想獲取什麼就透過正則匹配標籤獲取什麼!

    其次就是爬取網站時自動登入問題了,這裡涉及到加密解密演算法,不管服務端用了什麼演算法,我們只要找到其加密規則就可以一步步破解了。

    慢慢來,學完還有框架多執行緒爬蟲等等一系列的問題等著你呢!

    其實自己爬爬圖片、段子、種子什麼的還好啦,難就難於爬取商業資訊,這個需要去公司上手體驗學習的!祝你好運!加油^0^~ 奧利給!!!

  • 2 # 雁過無聲song

    問題就是“最基礎的東西”。

    1、python和其他程式語言一樣,該有的變數,語法,迴圈等都有,不同的是可能"名字"不一樣,比如字典,集合等。也是“五臟俱全”的,重要的是資料結構和演算法。

    2、python的"簡單",不要誤認為是好學,應理解為在處理同樣問題的時候,python所需要的程式碼要比其他的程式語言要少,同樣的面向物件程式設計,python解釋型的語法更容易理解,這也是“好學”的原因之一。

    3、樓主所說的做爬蟲是很需要“基礎”的,要知道python是模組化程式設計,就象堆積木一樣,雖然模組不用自己去做,但要知道如何去用。另外,做爬蟲還需要HTML,CSS,JavaScript等WEB前端多方面的知識。

    4、最主要的,學習任何一門程式語言,沒學會“走”,就想跑,甚至要飛,這是程式設計大忌,根據例程,用手敲而不是複製粘帖錄入幾萬行程式碼,然後回頭再看看,python還是很容易的。

  • 3 # 黑貓大V

    程式語言有很多的,你不會是因為基礎沒有打好,任何語言都是相通的,不要認為某種語言是容易的或者認為某種語言是特別難。

    一、計算機基礎知識一定要學好。

    二、入門語言c語言一定要學好。

    三、資料結構一定學,不說學的非常好,但是一定要懂。

    四、在這基礎上才能學好別的語言如python、java等,基礎知識不牢固想學好程式語言很難,反之你的基礎知識很紮實學習任何一種程式語言都是很容易的。

  • 4 # 黃敏67007964

    爬蟲其實問題問題不少,首先需要理解http協議,接著需要掌握正則表示式,執行緒,資料庫儲存,攔截器...等等。循序漸進吧。

  • 5 # 任T堂達人

    爬蟲只是為了練手,讓你熟練語法,背一些基本概念。熟了基本都是github找輪子,很少自己造了。odoo12做erp,嵌入式開發寫寫自動化指令碼還是挺好玩的。做網頁我都是用golang了。django太重了。flask也可以。

  • 6 # 小小猿愛嘻嘻

    Python做爬蟲來說,其實非常容易,零基礎也完全可以,有大量第三方包和框架可以直接使用(像urllib、requests、BeautifulSoup、scrapy等),輕鬆易學,非常容易掌握,下面我簡單介紹一下,感興趣的朋友可以嘗試一下:

    網頁基礎

    這個是最為基礎的,爬蟲爬取的資料大都巢狀在網頁標籤中(以靜態網頁為主,動態網頁則需要抓包分析),首先,你得會基本的網頁知識,包括html、css、js等,不要求多麼的精通,最起碼能看懂網頁結構,知道我們爬取的資料在哪裡,哪個標籤哪個屬性,如果你從來沒有這方面基礎的話,建議學習一下網頁知識(未來也一定會用得著),兩三天時間足矣入門:

    爬蟲入門

    網頁基礎掌握差不多後,就是Python爬蟲入門(假設你已熟悉Python基礎),這裡可以從基礎、非常容易學習的爬蟲庫開始,像urllib、requests、bs4、lxml、re等,對於爬取日常大部分網頁來說,完全夠用了,基本思想先根據url獲取網頁原始碼(字串),然後再匹配解析出你需要的資料(基於正則表示式或BeautifulSoup),注意,動態網頁的資料一般不會巢狀在網頁原始碼中,一般是一個json檔案,需要抓包分析:

    爬蟲框架

    爬蟲入門後,為了提高開發效率、避免反覆造輪子,也為了後期易於維護和擴充套件,建議學習一下爬蟲框架(推薦使用),Python來說,比較著名的就是scrapy,一個快速、高層次的爬蟲框架,免費、開源、跨平臺,在業界非常受歡迎,可定製化程度高,易於擴充套件,只需簡單幾行程式碼即可開啟一個爬蟲程式,入門學習來說,也非常容易,官方和網上資料非常多:

    目前,就分享這麼多吧,爬蟲入門來說,其實非常容易,只要你有一定的網頁和Python基礎,熟悉一下相關爬蟲庫的使用,很快就能掌握的,對於日常大部分網頁爬取來說足矣,後期建議多做專案,熟悉一下scrapy框架的使用,以積累經驗為主,網上也有相關教程和資料,介紹的非常詳細,感興趣的話,可以搜一下,希望以上分享的內容能對你有所幫助吧,也歡迎大家評論、留言進行補充。

  • 7 # 象牙之森

    Python ≠ 爬蟲。

    爬蟲雖然簡單,但是它跟python不一樣,python入門不等於爬蟲入門了。何況爬蟲複雜的也會相當複雜。

    如果想做爬蟲,建議先學學別人是如何開發的,等熟悉這一套流程之後,再開始從簡單的網頁開始開發爬蟲,遇到問題想辦法解決,考慮多跟別人交流交流,也可以去一些爬蟲軟體社群去詢問解決方案,然後實現這些,慢慢的你就會成為爬蟲高手了。

    補充一句,這些都是需要時間的,不要急躁。

  • 中秋節和大豐收的關聯?
  • 李連杰、甄子丹、洪金寶、成龍,誰的中國電影成就大?