- 作者:玢锐云
- 发表时间:2020-07-24 14:41
近期收到一些开发者反馈,为什么网站或智能小程序资源的内容非常优质,但是没有查询到百度蜘蛛抓取记录,或在百度搜索中没有得到收录和展现?
在技术分析后发现,有些网站或智能小程序存在封禁百度蜘蛛的情况,导致百度蜘蛛无法正常抓取,所以无法在百度搜索中正常收录和展现,或在搜索结果中的摘要展现为“存在robots封禁”字样。
为了让广大开发者的网站或小程序,在百度搜索中得到正常的收录和展现,建议开发者及时根据以下内容自查,解除封禁问题,并通过链接提交工具主动提交给我们。
常见的封禁行为包括robots封禁、封禁百度ua、封禁百度ip等。
如何验证网站和智能小程序是否存在封禁百度蜘蛛的情况?
1、首先, 查看robots.txt文件,是否存在封禁记录。(一般robots.txt文件放置在网站根目录下。)
【建议方案】解除robots封禁:robots封禁情况,请检查robots.txt文件,及时修改。
robots文件说明:https://ziyuan.baidu.com/college/articleinfo?id=1516
2、robots文件无异常,进一步排查是否存在封禁百度ua情况;
方案一:执行 curl --head --user-agent 'mozilla/5.0 (compatible; baiduspider/2.0; http://www.baidu.com/search/spider.html)' --request get 'xxxxxxx'
注:正常返回码是200,其他情况为异常。
xxxxxxx为网站域名,如:http://abc.com.cn。
正确识别和获取百度蜘蛛,https://ziyuan.baidu.com/college/articleinfo?id=2855
方案二:变更浏览器ua验证;
【建议方案】解除百度ua封禁:查看网站反爬虫策略,进行策略调整。或针对百度ua添加策略白名单。
3、以上验证均无异常,最后进一步排查是否存在ip级别的封禁;
常见的ip封禁,源自网站的防火墙系统配置,需要查看防火墙配置系统后台,检查是否存在百度蜘蛛的ip级别封禁措施。
【建议方案】解除百度ip封禁:查看网站反爬虫策略,进行策略调整。(上海永乐国际官网转载文章,文章来源:百度站长平——搜索学院)