回覆列表
  • 1 # 情感透析

    網站日誌該分析哪些資料呢?從基礎資訊、目錄抓取、時間段抓取、IP抓取、狀態碼這幾點來分析:

      第一、基礎資訊

      下載一個網站日誌檔案工具獲取基礎資訊:總抓取量、停留時間(h)及訪問次數;通過這三個基礎資訊可以算出:平均每次抓取頁數、單頁抓取停留時間,然後再用MSSQL提取蜘蛛唯一抓取量,根據以上的資料算出爬蟲重複抓取率:

      平均每次抓取頁數=總抓取量/訪問次數

      單頁抓取停留時間=停留時間*3600/總抓取量

      爬蟲重複抓取率=100%—唯一抓取量/總抓取量

      統計出一段時間的資料,可以看出整體趨勢是什麼樣的,這樣就可以發現問題,才能夠調整網站的整體策略。下面用一個站長的日誌基礎資訊為例:

    日誌基礎資訊

      從日誌的基本資訊,我們需要看它的整體趨勢來調整,哪些地方需要加強。

    網站日誌檔案該分析哪些資料

    總抓取量

      從這個整體走勢來看出,爬蟲的抓取總量整體是在下降的,這個就需要我們進行一些相應的調整。

    網站日誌檔案該分析哪些資料

    蜘蛛重複抓取率

      整體來看,網站重複抓取率是有點上升的,這個就需要一些細節,多一些為抓取的入口和使用一些robots及nofollow技巧。

    單面停留時間

      爬蟲單面的停留時間,曾經有看到過一篇軟文,網頁載入速度是如何影響SEO流量的;提高網頁載入速度,減少爬蟲單面停留時間,可以為爬蟲的總抓取做出貢獻,進而增加網站收錄,從而提高網站整體流量。在16號至20號左右伺服器出現一些問題,之後進行調整後,速度明顯變快,單頁停留時間也相應的下來了。

      而對此進行相應調整如下:

      從本月整理來看,爬蟲的抓取量是下降的,重複抓取率是上升的。綜合分析,需要從站內連結和站外的連結進行調整。站內的連結儘量的帶錨文字,如果不能帶的話,可以推薦其他頁面的超連結,讓蜘蛛儘可能的深層次的抓取。站外連結的話,需要多方面的釋出。目前平臺太少了,如果深圳新聞網、商國互聯等站點出現一絲差錯的話,我們站點將受到嚴重影響。站外平臺要廣,釋出的連結要多樣話,不能直髮首頁的,欄目及文章頁面需要加大力度。目前,來講站外平臺太少,將近10w的外部連結,集中在幾個平臺上。

      第二、目錄抓取

      用MSSQL提取出爬蟲抓取的目錄,分析每日目錄抓取量。可以很清晰的看到每個目錄的抓取情況,另外可以對比之前的優化策略,優化是否合理,重點的欄目優化是不是預期的效果。

    爬蟲抓取的目錄

      綠色:主做欄目 黃色:抓取較差 粉色:抓取很差 深藍色:需要禁止欄目

    網站日誌檔案該分析哪些資料

    目錄整體趨勢

      可以看到整體的趨勢並沒有太大變化,只有兩個欄目的抓取是有較大變動的。

      第三、時間段抓取

      通過excel中的陣列函式,提取每日的時間段的爬蟲抓取量,重在分析每日的抓取情況,找到相應的抓取量較為密集的時間段,可以針對性的進行更新內容。同時,還可以看出,抓取不正常情況。

    網站日誌檔案該分析哪些資料

    時間段抓取

      某日哪個時間點出問題了,而且同樣是總抓取是下降的趨勢。

    網站日誌檔案該分析哪些資料

    時間段趨勢

      通過時間段抓取,我們進行相應的調整:

      通過圖中的表色,可以看出伺服器並不是特別的穩定,我們需要加強伺服器的穩定性。另外,17、18、19三天,連續被人攻擊、掛鏈等,但是爬蟲抓取正常,這說明這些對網站已經造成了一定影響!

      第四,IP段的抓取

      通過MSSQL提取日誌中的爬蟲的IP,通過excel進行統計,每日每個IP的抓取量,同樣我們需要看整體,如果IP段沒有明顯的變化的話,網站升降權是沒有多大問題的。因為在網站升權或者降權的時候,爬蟲的IP段會更換的。

    網站日誌檔案該分析哪些資料

    IP段抓取

      第五,狀態碼的統計

      在這個之前你需要了解下,HTTP狀態碼返回值代表是什麼。

    狀態碼統計

      如果一個網站被搜尋引擎抓取的次數以及頻率越多那麼他是越有利於排名的,但是如果你的網站出現太多的304,那麼一定會降低搜尋引擎的抓取頻率以及次數,從而讓自己的網站排名比別人落一步。調整:伺服器可以清除下快取。

    狀態碼統計

      百度爬蟲的資料圖,密密麻麻的資料,以上所有的資料都是從這裡調用出來的

  • 中秋節和大豐收的關聯?
  • 娛樂圈中有哪些“謙謙君子,溫潤如玉”的男星?