百度蛛蛛抓取策略分析以及如何识别百度蛛蛛-汕哥教育

　　百度蛛蛛是一套专门用于从互联上抓取下载网页的程序,它的作用是访问收集整理互联网上的网页、图片、视频等内容，然后分门别类建立索引数据库，使用户能在百度搜索引擎中搜索到您网站的网页、图片、视频等内容。

　　百度蛛蛛分类：

　　网页搜索 Baiduspider

　　无线搜索 Baiduspider

　　图片搜索 Baiduspider-image

　　视频搜索 Baiduspider-video

　　新闻搜索 Baiduspider-news

　　百度搜藏 Baiduspider-favo

　　百度联盟Baiduspider-cpro

　　竞价蜘蛛Baiduspider-sfkr

　　百度蛛蛛抓取策略：

　　1:宽度优先遍历策略

　　举个简单的例子,a网页里面包含了b,c,d三个网页,b,c,d分别又包含了e,f,g三个网页，那么蛛蛛首页抓取a网页，然后再抓取b,c,d三个网页,最后再抓取e,f,g三个网页，这就是宽度优先遍历策略

　　2:深度优先策略

　　和宽度优先遍历策略刚好相反,比方说a网页包含b,c两个网页,b网页又包含d网页,c网页包含e网页，那么深度优先策略就是先抓取b网页再抓取b网页下面的d网页,完了再去抓取c网页

　　3:大站优先策略

　　大站优先策略就是一些门户网站,高权重网站(百度蛛蛛出发站点,种子站点)百度蛛蛛会优先进行一个抓取,这就是所谓的特权吧

　　4:还有“非完全PageRank策略”和“OPIC策略”这里就不再多说了，有兴趣可以自己去看一些相关书籍或者百度搜索

　　百度的蛛蛛的分析:

　　可以使用光年日志等工具对百度蛛蛛抓取的日志进行一个分析,从分析结果可以看出百度蛛蛛的访问频率,访问了哪些页面,也可以看出访问的时候是否出现一些错误,比如404,502等等

　　如何识别百度蛛蛛

　　1、查看UA，如果UA都不对，可以直接判断非百度搜索的蜘蛛，目前对外公布过的UA是：

　　移动UA:Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

　　PC UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

　　新增渲染UA:

　　移动UA：Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 likeMac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

　　PC UA：Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)