百度蛛蛛抓取策略分析以及如何识别百度蛛蛛

  百度蛛蛛是一套专门用于从互联上抓取下载网页的程序,它的作用是访问收集整理互联网上的网页、图片、视频等内容,然后分门别类建立索引数据库,使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。

  百度蛛蛛分类:

  网页搜索 Baiduspider

  无线搜索 Baiduspider

  图片搜索 Baiduspider-image

  视频搜索 Baiduspider-video

  新闻搜索 Baiduspider-news

  百度搜藏 Baiduspider-favo

  百度联盟Baiduspider-cpro

  竞价蜘蛛Baiduspider-sfkr

  百度蛛蛛抓取策略:

  1:宽度优先遍历策略

  举个简单的例子,a网页里面包含了b,c,d三个网页,b,c,d分别又包含了e,f,g三个网页,那么蛛蛛首页抓取a网页,然后再抓取b,c,d三个网页,最后再抓取e,f,g三个网页,这就是宽度优先遍历策略

  2:深度优先策略

  和宽度优先遍历策略刚好相反,比方说a网页包含b,c两个网页,b网页又包含d网页,c网页包含e网页,那么深度优先策略就是先抓取b网页再抓取b网页下面的d网页,完了再去抓取c网页

  3:大站优先策略

  大站优先策略就是一些门户网站,高权重网站(百度蛛蛛出发站点,种子站点)百度蛛蛛会优先进行一个抓取,这就是所谓的特权吧

  4:还有“非完全PageRank策略”和“OPIC策略”这里就不再多说了,有兴趣可以自己去看一些相关书籍或者百度搜索

  百度的蛛蛛的分析:

  可以使用光年日志等工具对百度蛛蛛抓取的日志进行一个分析,从分析结果可以看出百度蛛蛛的访问频率,访问了哪些页面,也可以看出访问的时候是否出现一些错误,比如404,502等等

  如何识别百度蛛蛛

  1、查看UA,如果UA都不对,可以直接判断非百度搜索的蜘蛛,目前对外公布过的UA是:

  移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  新增渲染UA:

  移动UA:Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

  PC UA:Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)