回覆列表
-
1 # 非著名攻城獅
-
2 # 精彩片段搬用工
爬取網站內容有很多方法。可以使用相關的軟體或者自己寫爬蟲程式。目前很多軟體都可以爬取一些網站上固定的內容,比如說火車頭採集器,關關採集器等等。但是如果想要爬取一些個性化的定製內容,並且釋出到自己網站的話,還是需要一些專業的軟體開發技能。目前最常用的開發語言就是Python。現在網上有很多爬取內容的教程你可以學習一下。但是現在爬取內容如果達到一定的量級,並且應用於商業。是屬於違法行為,請一定要謹慎。
抓包別的網站的內容,俗稱爬蟲,這是違法行為,希望題主注意分寸。
我簡單說說我用過的兩種方法,但僅限於學習交流,分別是使用python和android,大家可以理解為伺服器後臺爬蟲和安卓端爬蟲。
使用python爬蟲python強大之處在於生態庫非常豐富,爬蟲的話我推薦學習scapy庫,這個庫封裝的很好,使用簡單,不依賴其他的python庫,導包和配置引數也很簡單,可以透過help("scapy")檢視幫助,這裡我就不詳細描述了。如果你爬取額網站資料協議比較複雜的話,那你得自己寫解析邏輯。下面透過兩行程式碼感受下scapy庫的簡單。
安卓端爬蟲這裡需要解釋下,安卓並不是爬蟲,而是解析網站程式碼。這個方法就比較笨重了,一旦網站程式碼結果變了,那麼解析邏輯也得變化。安卓是使用的Jsoup框架使用爬蟲的。網站程式碼也就是H5,它的程式碼是解釋一行執行一行的。我們可以直接檢視網站原始碼,然後根據程式碼編寫自己的解析邏輯,獲取所需要的資料。Jsoup使用更加簡單,將網頁解析成Dom,然後就根據key獲取value。 Jsoup一句程式碼實現Dom解析
Document doc = Jsoup.connect("http://example.com/").get();