首頁>Club>

216
回覆列表
  • 1 # 西域小夥伴

    爬蟲選擇什麼工具呢?

    1.爬蟲是網路蜘蛛機器人,自動爬取資料,按我們制定的規則獲取資料

    2.為什麼要用爬蟲呢,私人定製搜尋引擎,獲得更多的資料,不再是網際網路時代而是大資料時代

    3.爬蟲的原理:控制節點(url分配器)、爬蟲節點(按照演算法爬取資料儲存到資料庫)、資源庫(儲存爬取的資料庫供應搜尋)

    4.爬蟲的設計思路:爬取的網路地址、http協議獲取對應的html頁面

    5.爬蟲語言選擇:

    PHP:雖然冠名“世界上最好的語言”,但是作為爬蟲的缺點:沒有多執行緒的概念,對非同步的支援不多,併發不足,爬蟲要求效率高

    C/c++ :執行效率和效能最高的語言,但是學習成本非常高,程式碼成型較大

    Java:生態圈非常廣大,python最大的競爭者,本身非常笨重體量積,爬蟲需要經常修改程式碼

    Python:語言優美、程式碼簡介、第三方功能模組多scrapy、呼叫替他語言介面、成熟較高的分散式策略

  • 2 # 琅琅學觀

    你是要在網上爬資料嗎?

    寫爬蟲現在用Python最快,從搭建環境到獲取第一份資料,用幾個小時就可以了,比其它的方法快了很多。

    因為Python有很多可以直接用的web包,裡面有包裝好的工具。而且對環境的要求也不高,差不多的機器都能跑得很流暢。

    缺點是如果想要給Python配一個介面,會比較煩,但是一般爬資料的人也不用介面,把爬來的資料放進檔案裡面或者資料庫裡面就好,出界面顯示資料的事情,給別人幹

  • 3 # 第一山

    寫爬蟲用什麼語言好?做爬蟲需要什麼語言,個人覺得任何語言,只要具備訪問網路的標準庫,都可以用來寫爬蟲。

    對於剛剛接觸爬蟲的新手來說,經常會糾結於用是不是非得用Python 來做爬蟲,但是無論是 JAVA,PHP 還是其他更低階語言,都可以很方便的實現爬蟲的需要。

    各種語言寫爬蟲相對於Python,區別在於靜態語言出現錯誤的可能性很低,低階語言執行速度會更快一些,但是Python 的優勢在於庫更豐富,框架更加成熟,對於新手來說,在熟悉庫和框架實際上需要花費不少的時間。

    那麼,到底用什麼語言寫爬蟲最好呢?我們先來對比一下幾種常用語言對於寫爬蟲的優缺點:

    C,C++優點:高效率,快速,適合通用搜索引擎做全網爬取。缺點:開發慢,寫起來又臭又長,例如:天網搜尋原始碼。PHP:優點:語言比較簡單,PHP 是非常隨意的一種語言。寫起來容易讓你把精力放在你要做的事情上,而不是各種語法規則等等。各種功能模組齊全,網頁下載有curl 等擴充套件庫;文件解析有dom、xpath、tidy、各種轉碼工具。總之容易上手。缺點:併發處理能力較弱:由於當時 PHP 沒有執行緒、程序功能,要想實現併發需要借用多路服用模型,PHP 使用的是 select 模型,實現其來比較麻煩。指令碼語言:Perl, Python, Java, Ruby。簡單,易學,良好的文字處理能方便網頁內容的細緻提取,但效率往往不高,適合對少量網站的聚焦爬取C#:

    貌似資訊管理的人比較喜歡的語言,在這裡就不介紹了。反正我是沒用他來寫過爬蟲。

    對於寫爬蟲,新手總想找一種一勞永逸的方法,覺得把握住一種方法,語言和框架,就可以長時間高枕無憂了,其實最好的學習方式不是樣的,建議還是大膽嘗試主流框架,在不大重要的學習專案中進行嘗試。多使用幾次才會知道優勢劣勢。總之,不管你使用哪一種爬蟲手段,只要達到所需要的效果就可以了。

    首先,Python具有以下特點:

    跨平臺,對Linux和windows都有不錯的支援。科學計算,數值擬合:Numpy,Scipy視覺化:2d:Matplotlib(做圖很漂亮), 3d: Mayavi2 複雜網路:Networkx統計:與R語言介面:Rpy互動式終端網站的快速開發Python寫爬蟲具有以下優點:

    1.各種爬蟲框架,方便高效的下載網頁;

    2.多執行緒、程序模型成熟穩定,爬蟲是一個典型的多工處理場景,請求頁面時會有較長的延遲,總體來說更多的是等待。多執行緒或程序會更優化程式效率,提升整個系統下載和分析能力。

    3.GAE 的支援,當初寫爬蟲的時候剛剛有 GAE,而且只支援 Python ,利用 GAE 建立的爬蟲幾乎免費,最多的時候我有近千個應用例項在工作。

    總結:

    對於一個爬蟲系統來說,下載和內文解析只是基本的兩個功能。真正好的系統還包括完善的任務排程、監控、儲存、頁面資料儲存和更新邏輯、排重等等。爬蟲是一個耗費頻寬的應用,好的設計會節約大量的頻寬和伺服器資源,並且好壞差距很大。

    寫爬蟲是一邊寫,一邊測試。測試不過再改改。這個過程用 python 寫起來最方便。而且 python 相關的庫也是最方便,有 request, jieba, redis, gevent, NLTK, lxml, pyquery, BeautifulSoup, Pillow. 不論是最簡單的爬蟲還是巨複雜的爬蟲都輕鬆搞定。

    寫爬蟲用什麼語言好?

    個人建議首選用python寫爬蟲比較好。

  • 4 # 梔子花的離歌

    python

    必須是python

    簡單,快捷

    輪子很多,你只要搞定車就好了。

    python用的最多的幾個方向

    爬蟲和人工智慧。

    所以用python吧

    人生苦短,我用python

  • 5 # 科技閒知

    能寫爬蟲的語言很多,Python、Java、go甚至JS等很多語言都可以寫。不過個人推薦還是去學Python。

    最後給一句忠告:爬蟲學得好,黑屋進得早。玩爬蟲不要去觸碰法律底線。

  • 中秋節和大豐收的關聯?
  • 和自以為是者談話是種怎樣的體驗?