-
1 # 小小猿愛嘻嘻
-
2 # Python進階學習交流
四個字:網路爬蟲
具體的實現,開發工具:Pycharm
程式語言:Python
-
3 # AI中國
對於Ajax載入的網頁已經分析了好幾回,這回來說說利用selenium自動化獲取網頁資訊。
通常對於非同步載入的網頁,我們需要查詢網頁的真正請求,並且去構造請求引數,最後才能得到真正的請求網址。而利用selenium透過模擬瀏覽器操作,則無需去考慮那麼多,做到可見即可爬。
當然帶來便捷的同時,也有著不利,比如說時間上會有所增加,效率降低。可是對於業餘爬蟲而言,更快的爬取,並不是那麼的重要。
首先在電腦的PyCharm上安裝selenium,然後下載與電腦上谷歌瀏覽器相對應版本的ChromeDriver。由於我的Mac系統版本較新,需要先關閉Rootless核心保護機制,才能夠安裝,所以也是折騰一番後才成功安裝。
爬取程式碼如下:
其中每一個網頁有60條商品資料,那麼按道理應該有6000條的筆記本商品資訊,但是最後卻只獲取了5992條。
估計兩個原因:
1⃣️在MongoDB中商品的標題為主鍵,商品標題出現重複
2⃣️網頁未能載入完所有的商品資訊
最後成功獲取商品資訊
讀取MongoDB中資料進行視覺化分析
從上面可以看出,ThinkPad位居榜首,也與後面的詞雲圖有所呼應。商務、辦公,因為它就是一款以商務辦公為主打品牌的筆記本。此外國內品牌聯想、華碩、宏碁、華為也在榜上,支援國貨!!!
筆記本價格區間在4000-6000有較大的集中,也一定程度反應出了現在筆記本的中間價位,記得剛上大學那會,價格在5000+的筆記本就能有著不錯的配置,LOL特效全開。
統計下來自營與非自營,還是小巫見大巫。京東和淘寶最大的區別就是京東有自營產品,送貨也快。雖說自營的也有假貨,但是還是小機率事件。購買電子產品時,比如手機、電腦等,對於我這種小白而言,我第一選擇就是去官網或者京東自營店購買,我是絕對不會去電子城和姦商們鬥智鬥勇的,即使可能價格會低點。但是官網一般快遞比較慢,需要個3-5天,而京東可能只需1-2天,所以京東算是我購買的最優選擇。
這裡把標題中筆記本配置引數全部用正則篩選掉。雖說筆記本引數決定了筆記本的效能,不過真正的去購買一臺筆記本時,最重要的還是根據自己的需求和預算,然後再去考慮筆記本引數,最後選擇一部適合自己的筆記本。一般的筆記本引數如下:
CPU:酷睿系列i3、i5、i7,標壓M與低壓U
硬碟:500G、1T、2T
顯示卡:AMD,NVIDIA
記憶體:4G,8G
-
4 # 傳智播客
答案中有方法也有程式碼,但是沒有人說思路。程式設計重點是程式碼嗎?重點在與邏輯思維的嚴謹。在考慮如何用python爬蟲的時候,我們先來弄清楚什麼是爬蟲,思路和原理是什麼。
網路爬蟲的真正意義也不僅這樣,由於它可以自動提取網頁資訊,使他成為了搜尋引擎從全球資訊網下載到網頁的重要工具。
正經點介紹:
網路爬蟲,是一種按照一定的規則自動地抓取全球資訊網資訊的程式或是指令碼。另外一些不常用的名字叫螞蟻、自動索引、模擬程式等。主要行徑:網頁首頁--->讀取網頁內容--->找到網頁其他的連結地址--->其他網頁的首頁
就是這樣的迴圈下去,一直到將這個網站上所有的網頁都吃光,網頁上所有的資訊全部用蜘蛛得到。
URL初級概念我們先來介紹一下瀏覽網頁的基本過程,整個過程大致會有下面的步驟:
本地瀏覽器(客戶端)--->請求--->傳智伺服器(服務端)
本地瀏覽器(客戶端)<---檔案資料<---傳智伺服器(服務端)
本地瀏覽器(客戶端)進行解析檔案資料並且展現
那麼實際瀏覽器用的是一種家婆html標記的語言來進行解析的。html標記就是我們說的網址域名。我們給瀏覽器輸入的地址,實際上URL(Uniform Resource Locator)統一資源定位符。就是地址,一般有三部分組成:
爬蟲主要處理的物件就是類似於以上的URL,爬蟲根據URL地址取得所需要的檔案內容,然後對它進一步處理。瞭解這些概念之後,再參考其他答案當中的操作就可以更好的理解了。
-
5 # 一顆認真的小樹
如果沒有基礎的話,建議你找個培訓機構的,自己死扣還是很難的啊。建議去中公教育去培訓,大機構,老師也專業,希望你去了解一下
回覆列表
這裡簡單介紹一下吧,以抓取網站靜態、動態2種資料為例,實驗環境win10+python3.6+pycharm5.0,主要內容如下:
抓取網站靜態資料(資料在網頁原始碼中):以糗事百科網站資料為例
對應的網頁原始碼如下,包含我們所需要的資料:
2.對應網頁結構,主要程式碼如下,很簡單,主要用到requests+BeautifulSoup,其中requests用於請求頁面,BeautifulSoup用於解析頁面:
程式執行截圖如下,已經成功爬取到資料:
抓取網站動態資料(資料不在網頁原始碼中,json等檔案中):以人人貸網站資料為例
1.這裡假設我們爬取的是債券資料,主要包括年利率、借款標題、期限、金額和進度這5個欄位資訊,截圖如下:
開啟網頁原始碼中,可以發現數據不在網頁原始碼中,按F12抓包分析時,才發現在一個json檔案中,如下:
2.獲取到json檔案的url後,我們就可以爬取對應資料了,這裡使用的包與上面類似,因為是json檔案,所以還用了json這個包(解析json),主要內容如下:
程式執行截圖如下,已經成功抓取到資料:
至此,這裡就介紹完了這2種資料的抓取,包括靜態資料和動態資料。總的來說,這2個示例不難,都是入門級別的爬蟲,網頁結構也比較簡單,最重要的還是要會進行抓包分析,對頁面進行分析提取,後期熟悉後,可以藉助scrapy這個框架進行資料的爬取,可以更方便一些,效率更高,當然,如果爬取的頁面比較複雜,像驗證碼、加密等,這時候就需要認真分析了,網上也有一些教程可供參考,感興趣的可以搜一下,希望以上分享的內容能對你有所幫助吧。