透過分析網站日誌Log檔案可以看到使用者和搜尋引擎訪問網站的資料,這些資料可以分析出使用者和搜尋引擎對網站的喜好以及網站的情況。網站日誌分析主要是分析蜘蛛爬蟲的爬行軌跡。
蜘蛛爬蟲抓取和收錄的過程中,搜尋引擎會給特定權重網站分配相應的資源量。一個符合搜尋引擎友好性的網站應該充分的利用這些資源,可以讓蜘蛛爬蟲快速、準確、全面的抓取有價值、使用者又喜歡的內容,而不是浪費資源,訪問沒有價值的內容上。
接下來就詳細的瞭解一下,網站日誌如何分析吧!
1、訪問次數、停留時間、抓取量
從這三項資料中可以知道平均每次抓取頁面的數量、單頁抓取停留時間和平均每次停留的時間。從這些資料可以看出蜘蛛爬蟲的活躍度、親和程度、抓取深度等等,總訪問的次數、停留時間、抓取量、平均抓取頁面、平均停留時間越長,就說明網站越受搜尋引擎喜歡。而單頁抓取停留時間表明網站頁面訪問速度,時間越長,網站訪問速度越慢,越不利於搜尋引擎的抓取,應該儘量提高網站頁面載入速度,減少單頁抓取停留時間,這樣可以讓搜尋引擎收錄更多頁面。另外,根據資料也可以統計出一段時間內網站運營的整體趨勢,例如,蜘蛛訪問次數趨勢、停留時間趨勢、抓取趨勢。
2、目錄抓取統計
透過分析網站日誌可以瞭解到網站哪些目錄蜘蛛爬蟲比較喜歡,抓取目錄的深度、重要頁面目錄抓取情況、無效頁面目錄抓取情況等等。透過對比目錄下頁面的抓取以及收錄情況可以發現更多問題。對於重要目錄,需要透過內外調整增加權重以及抓取率,對於無效頁面,可以在robots.txt中進行遮蔽。另外,透過網站日誌可以看到網站目錄的效果、最佳化的是否合理,是否達到預期效果。於同一目錄,以長期時間段來看,我們可以看到該目錄下頁面表現,根據行為推測表現的原因等。
3、頁面抓取
在網站日誌分析中,可以看到搜尋引擎抓取的具體頁面。在這些頁面中,可以分析出哪些頁面是不被抓取的,哪些頁面是沒有價值的,還有就是抓取了哪些重複的URL等等,必須充分的利用資源,將這些地址新增到robots.txt中。另外還可以分析未收錄頁面的原因,對於新文章,是因為沒有被抓取而未收錄,還是抓取了沒有放出來。
4、蜘蛛訪問IP
透過蜘蛛IP是否能判斷出網站降權情況,答案是不能的。網站降權主要從前三項資料來判斷,,如果想用IP來判斷,那是不可能的。
5、訪問狀態碼
蜘蛛經常出現301、404狀態碼,如果返回狀態碼是304,那麼網站就是沒有更新的,出現這些狀態碼的時候,一定要及時處理,要不然會對網站造成不好的影響。
6、抓取時間段
透過分析對比搜尋引擎的抓取量,可以瞭解搜尋引擎在特定的時間的活躍度。透過對比周資料,可以瞭解到搜尋引擎的活躍週期,這樣對於網站更新內容有著重要意義。
7、搜尋引擎抓取路徑
在網站日誌中,可以跟蹤到特定IP的訪問路徑,跟蹤特定的搜尋引擎的訪問路徑能夠發現對網站抓取路徑的喜好。所以,可以引導搜尋引擎來進入抓取路徑中,這樣可以讓搜尋引擎抓取更重要,更有價值的內容。
透過分析網站日誌Log檔案可以看到使用者和搜尋引擎訪問網站的資料,這些資料可以分析出使用者和搜尋引擎對網站的喜好以及網站的情況。網站日誌分析主要是分析蜘蛛爬蟲的爬行軌跡。
蜘蛛爬蟲抓取和收錄的過程中,搜尋引擎會給特定權重網站分配相應的資源量。一個符合搜尋引擎友好性的網站應該充分的利用這些資源,可以讓蜘蛛爬蟲快速、準確、全面的抓取有價值、使用者又喜歡的內容,而不是浪費資源,訪問沒有價值的內容上。
接下來就詳細的瞭解一下,網站日誌如何分析吧!
1、訪問次數、停留時間、抓取量
從這三項資料中可以知道平均每次抓取頁面的數量、單頁抓取停留時間和平均每次停留的時間。從這些資料可以看出蜘蛛爬蟲的活躍度、親和程度、抓取深度等等,總訪問的次數、停留時間、抓取量、平均抓取頁面、平均停留時間越長,就說明網站越受搜尋引擎喜歡。而單頁抓取停留時間表明網站頁面訪問速度,時間越長,網站訪問速度越慢,越不利於搜尋引擎的抓取,應該儘量提高網站頁面載入速度,減少單頁抓取停留時間,這樣可以讓搜尋引擎收錄更多頁面。另外,根據資料也可以統計出一段時間內網站運營的整體趨勢,例如,蜘蛛訪問次數趨勢、停留時間趨勢、抓取趨勢。
2、目錄抓取統計
透過分析網站日誌可以瞭解到網站哪些目錄蜘蛛爬蟲比較喜歡,抓取目錄的深度、重要頁面目錄抓取情況、無效頁面目錄抓取情況等等。透過對比目錄下頁面的抓取以及收錄情況可以發現更多問題。對於重要目錄,需要透過內外調整增加權重以及抓取率,對於無效頁面,可以在robots.txt中進行遮蔽。另外,透過網站日誌可以看到網站目錄的效果、最佳化的是否合理,是否達到預期效果。於同一目錄,以長期時間段來看,我們可以看到該目錄下頁面表現,根據行為推測表現的原因等。
3、頁面抓取
在網站日誌分析中,可以看到搜尋引擎抓取的具體頁面。在這些頁面中,可以分析出哪些頁面是不被抓取的,哪些頁面是沒有價值的,還有就是抓取了哪些重複的URL等等,必須充分的利用資源,將這些地址新增到robots.txt中。另外還可以分析未收錄頁面的原因,對於新文章,是因為沒有被抓取而未收錄,還是抓取了沒有放出來。
4、蜘蛛訪問IP
透過蜘蛛IP是否能判斷出網站降權情況,答案是不能的。網站降權主要從前三項資料來判斷,,如果想用IP來判斷,那是不可能的。
5、訪問狀態碼
蜘蛛經常出現301、404狀態碼,如果返回狀態碼是304,那麼網站就是沒有更新的,出現這些狀態碼的時候,一定要及時處理,要不然會對網站造成不好的影響。
6、抓取時間段
透過分析對比搜尋引擎的抓取量,可以瞭解搜尋引擎在特定的時間的活躍度。透過對比周資料,可以瞭解到搜尋引擎的活躍週期,這樣對於網站更新內容有著重要意義。
7、搜尋引擎抓取路徑
在網站日誌中,可以跟蹤到特定IP的訪問路徑,跟蹤特定的搜尋引擎的訪問路徑能夠發現對網站抓取路徑的喜好。所以,可以引導搜尋引擎來進入抓取路徑中,這樣可以讓搜尋引擎抓取更重要,更有價值的內容。