在使用selenium瀏覽器渲染技術,爬取網站資訊時,預設情況下就是一個普通的純淨的chrome瀏覽器,而我們平時在使用瀏覽器時,經常就新增一些外掛,擴充套件,代理之類的應用。相對應的,當我們用chrome瀏覽器爬取網站時,可能需要對這個chrome做一些特殊的配置,以滿足爬蟲的行為。
常用的行為有:
禁止圖片和影片的載入:提升網頁載入速度。
新增代理:用於翻牆訪問某些頁面,或者應對IP訪問頻率限制的反爬技術。
使用移動頭:訪問移動端的站點,一般這種站點的反爬技術比較薄弱。
新增擴充套件:像正常使用瀏覽器一樣的功能。
設定編碼:應對中文站,防止亂碼。
阻止JavaScript執行。
………
2. chromeOptions
chromeOptions 是一個配置 chrome 啟動是屬性的類。透過這個類,我們可以為chrome配置如下引數(這個部分可以透過selenium原始碼看到):
設定 chrome 二進位制檔案位置 (binary_location)
新增啟動引數 (add_argument)
新增擴充套件應用 (add_extension, add_encoded_extension)
新增實驗性質的設定引數 (add_experimental_option)
設定偵錯程式地址 (debugger_address)
在使用selenium瀏覽器渲染技術,爬取網站資訊時,預設情況下就是一個普通的純淨的chrome瀏覽器,而我們平時在使用瀏覽器時,經常就新增一些外掛,擴充套件,代理之類的應用。相對應的,當我們用chrome瀏覽器爬取網站時,可能需要對這個chrome做一些特殊的配置,以滿足爬蟲的行為。
常用的行為有:
禁止圖片和影片的載入:提升網頁載入速度。
新增代理:用於翻牆訪問某些頁面,或者應對IP訪問頻率限制的反爬技術。
使用移動頭:訪問移動端的站點,一般這種站點的反爬技術比較薄弱。
新增擴充套件:像正常使用瀏覽器一樣的功能。
設定編碼:應對中文站,防止亂碼。
阻止JavaScript執行。
………
2. chromeOptions
chromeOptions 是一個配置 chrome 啟動是屬性的類。透過這個類,我們可以為chrome配置如下引數(這個部分可以透過selenium原始碼看到):
設定 chrome 二進位制檔案位置 (binary_location)
新增啟動引數 (add_argument)
新增擴充套件應用 (add_extension, add_encoded_extension)
新增實驗性質的設定引數 (add_experimental_option)
設定偵錯程式地址 (debugger_address)