回覆列表
  • 1 # 不忘初心繼續前進144738137

    在使用selenium瀏覽器渲染技術,爬取網站資訊時,預設情況下就是一個普通的純淨的chrome瀏覽器,而我們平時在使用瀏覽器時,經常就新增一些外掛,擴充套件,代理之類的應用。相對應的,當我們用chrome瀏覽器爬取網站時,可能需要對這個chrome做一些特殊的配置,以滿足爬蟲的行為。

    常用的行為有:

    禁止圖片和影片的載入:提升網頁載入速度。

    新增代理:用於翻牆訪問某些頁面,或者應對IP訪問頻率限制的反爬技術。

    使用移動頭:訪問移動端的站點,一般這種站點的反爬技術比較薄弱。

    新增擴充套件:像正常使用瀏覽器一樣的功能。

    設定編碼:應對中文站,防止亂碼。

    阻止JavaScript執行。

    ………

    2. chromeOptions

    chromeOptions 是一個配置 chrome 啟動是屬性的類。透過這個類,我們可以為chrome配置如下引數(這個部分可以透過selenium原始碼看到):

    設定 chrome 二進位制檔案位置 (binary_location)

    新增啟動引數 (add_argument)

    新增擴充套件應用 (add_extension, add_encoded_extension)

    新增實驗性質的設定引數 (add_experimental_option)

    設定偵錯程式地址 (debugger_address)

  • 中秋節和大豐收的關聯?
  • 漂泊在外的鄉愁會是一種什麼樣的心情?每一次的離鄉都在期盼什麼?