网站robots协议详解

  Robots协议全称”网络爬虫排除标准”(Robots Exclusion Protocol),又简称”爬虫协议”,用于告诉搜索引擎网站哪些网页可以抓取,哪些不可以抓取

  Robots协议是一个行业公认的规范,几乎所有的搜索引擎都遵守这一标准,但也一些个案,不遵爱robots协议,比如:在12年前,美国加州北部的联邦地方法院就在著名的eBayVS. Bidder's Edge案中(NO.C-99-21200RMW,2000 U.S Dist. LEXI 7282),引用robots协议对案件进行裁定。 Bidder's Edge(简称BE)成立于1997年,是专门提供拍卖信息的聚合网站。12年前,BE利用“蜘蛛”抓取来自eBay等各个大型拍卖网站的商品信息,放在自己的网站上供用户浏览,并获得可观的网站流量。(引用百度百科)

  2012年8月,360综合搜索被指违反robots协议:

  360甘冒行业道德风险 撕毁Robots自律协议2012年8月29日,上线不到十日即轻松登上国内第二大搜索引擎宝座的奇虎360搜索遭遇滑铁卢,在百度一项打击违规抓取和匿名访问的措施上线后,360搜索通过山寨加绑架用户的模式被彻底揭穿,这个故事也正是对所谓“搜索引擎技术无用论”的当头棒喝。(引用百度百科)

  Robots协义的使用

  1:禁止所有搜索引擎对网站进行一个抓取

  User-agent: *

  Disallow: /

  2:允许所有搜索引擎对整个网站进行一个抓取或者直接不设置robots协议文件则代表允许所有搜索引擎对网站进行一个抓取

  User-agent: *

  Allow: /

  3:不允百度对网站进行一个抓取

  User-agent:Baiduspider

  Disallow: /

  4:只允许百度对网站进行一个抓取

  User-agent:Baiduspider

  allow: /

  User-agent:*

  Disallow: /

  5:禁止所有蛛蛛抓取某个特定的目录a和b

  User-agent:*

  Disallow: /a/

  Disallow: /b/

  6: 禁止访问所有以某个后缀结束的文件(.htm)

  User-agent:*

  Disallow: /*.htm$

  对于一个seo或者网站运营人员来说,我个人觉得还是有必要了掌握一些简单的robots协议的使用技巧,不要哪天把蛛蛛给禁止抓取了都不知道就尴尬了