1、抓取異常究竟指什么
對于互聯網中可正常訪問的頁面,通過百度蜘蛛抓取所獲取到的內容應與普通用戶訪問到是一致的,而抓取異常是除此以外的情況。
2、網站抓取異常有什么嚴重的影響
如果網站中存在大量網頁抓取異常,網站就會被搜索引擎認為存在用戶體驗上的缺陷,從而對網站的評價將會受到大幅度的影響,而網站在百度搜索引擎中的表現將會被終影響到。推薦閱讀:什么樣的網站利于百度蜘蛛抓取
3、關于死鏈接
死鏈接就是指那些頁面已經無效,無法對用戶提供任何有價值信息的頁面,包括協議死鏈和內容死鏈兩種形式。
什么是協議死鏈:如404、403、503狀態等常見死鏈會在頁面的TCP協議狀態/HTTP協議狀態中有明確的表示。
什么是內容死鏈;對于服務器來說,它有著正常的服務器狀態,但是已經變更為不存在內容、或者是已刪除或需要權限等與原內容無關的信息頁面。
對于死鏈,建議對死鏈數據進行及時修復,或推送死鏈數據,為使搜索引擎更快地發現死鏈,將死鏈對用戶以及搜索引擎的影響減少。推薦閱讀:如何吸引百度蜘蛛與抓取的頻率
4、關于IP禁封
對網絡的出口IP地址進行限制,禁止該IP段的使用者進行內容訪問,就是禁封。
5、關于UA禁封
用戶代理(User-Agent)即是UA,服務器是通過UA才能識別訪問者的身份。而UA禁封就是網站針對指定UA的訪問,返回異常頁面(如403,500)或跳轉到其他頁面的情況。
6、關于異常重定向
即為重定向將網絡請求重新指向其他位置。永久重定向(301跳轉協議)和暫時重定向(302跳轉協議),目前百度都可以識別和支持是兩種常見的重定向。
對于長時間跳轉到其他域名的情況,如網站更換域名,建議您使用301跳轉協議。
7、其他異常
針對百度refer的作弊:這是網頁針對從百度的refer返回不同于正常內容的行為的一種反應。針對百度ua的作弊:網頁對百度UA返回不同于頁面原內容的行為。
JS跳轉作弊:用戶在通過搜索結果進入頁面后發生了跳轉的情況,這是由于網頁加載了百度無法識別的JS跳轉代碼。
壓力過大引起的偶然禁封:根據站點的規模,訪問量等信息,百度會自動設定一個合理的抓取壓力。但是如壓力控制失常等異常情況下,根據自身負荷,服務器會進行保護性的偶然封禁。這種情況下,會在返回碼中返回其含義是 “Service Unavailable ,如果網站已空閑,等百度蜘蛛會過段時間再來嘗試抓取時,這個鏈接就會被成功抓取。