百度Spider新增渲染抓取UA,什么意思?

百度最近在测试渲染抓取,公告如下:

为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的CSS、Javascript和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新UA来访问站点的上述资源。从3月24日(2017)开始,百度搜索抽取了部分优质站点进行抓取内测,可能会对站点服务器造成一定压力影响,请尽量不要对UA进行封禁,以免造成不可逆转的损失。

最新UA如下:

PC:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移动:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

很多做SEO或者站群的朋友,多少都会做一些作弊的事情,比如判断百度蜘蛛以及来源做一些特殊处理,针对访客访问情况做特殊转跳来实现作弊。如今百度越来越智能,目前还会带上Baiduspider的UA标识抓取,如果以后完全模拟访客来抓取的话,SEO作弊会更难。

什么是抓取UA? 

UA即为用户代理(User-Agent),User Agent是Http协议中的一部分。简单说,当访问网站的时候电脑会提交使用的浏览器类型、操作系统、浏览器内核等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计。

什么是百度抓取UA?

百度抓取UA是指百度搜索蜘蛛的类型: 百度抓取收录网页有多重类型, 常见的有专门抓取pc站点的蜘蛛, 专门抓取百度投放广告相关性的蜘蛛, 这些搜索引擎蜘蛛的类型一般简称抓取UA.

百度站长工具里提醒的UA禁封是什么意思?

UA禁封是指网站根目录下面的robots.txt文件中设置了针对搜索引擎蜘蛛的禁止抓取。

比如:

User-agent: Baiduspider

Disallow: /baidu

这个设置指的是禁止百度蜘蛛抓取网站根目录下面的名为baidu的文件。

在用百度站长工具检查网站的时候有的网站会被提醒: 您的网站对百度设置了UA封禁, 处理的方法比较简单, 在网站根目录下找到robots.txt文件, 删除里面相应的禁封即可。

评论已关闭