回覆列表
  • 1 # 前嗅大資料

    l 採集網站

    免費下載ForeSpiderwww.forenose.com/view/forespider/view/download.html

    【入口網址】https://live.ixigua.com/category/1/109/

    【採集內容】

    【採集效果】如下圖所示:

    l 思路分析

    配置思路概覽:

    l 配置步驟

    1. 新建採集任務

    2. 直播分類連結獲取

    發現不同分類直播的連結規律為:

    https://live.ixigua.com/category/1/分類id/

    將該段原始碼複製進行js格式化線上轉化,可更加清楚的看到結構。如下圖所示能夠看出,我們需要的分類名稱和id是在【sideBarData】陣列的第三個物件中的【childs】陣列中。

    具體如下所示:

    ④採集預覽,複製任意一條分類連結,在瀏覽器中開啟,看是否為該頁內容。

    3.各主播直播連結

    ①新建模板02,在模板02下建一個連結抽取,具體操作如下圖所示。

    ②在瀏覽器上開啟任意一個分類,複製價格主播直播連結,觀察其規律,具體如下:

    (測試發現連結後半部分不加也可以開啟該請求,故指令碼中省略後半部分)

    請求地址規律為:https://live.ixigua.com/api/feed/category/1/分類id

    ⑤根據剛才發現的規律,用指令碼來拼分類請求連結,獲取到請求中的原始碼,從而拼出主播頁面連結。

    具體如下所示:

    3.抽取主播資料

    ①新建一個抽取模板,在其下新建一個數據抽取,具體操作如下所示:

    ②資料建表

    ④欄位抽取

    欄位抽取使用指令碼抽取的方法,在資料抽取模板中新建一個指令碼視窗。

    ⑤採集預覽,複製一條翻頁的連結,在瀏覽器中開啟。

    ⑥滑鼠單擊右鍵,檢視原始檔,觀察可發現直播影片連結在如下圖所示位置。

    將以上一段js格式化後,觀察其位置,為【roomData】節點下的【playInfo】陣列的第一個陣列物件的FlvUrl。且本影片連結部分為unicode編碼,需要轉碼一下。

    ⑦根據以上觀察,編寫資料抽取指令碼,具體如下圖所示:

    l 採集步驟

    模板配置完成,採集預覽沒有問題後,可以進行資料採集。

    ①首先要建立採集資料表:

    ④匯出的檔案開啟如下圖所示:

    ⑤匯出影片步驟如下圖所示:

    l 前嗅簡介

  • 中秋節和大豐收的關聯?
  • 如果30歲的人,沒有事業,是不是這輩子就沒有機會了?