一、对淘宝的具体robots文件分析
User-agent: Baiduspider 以下五条都是针对百度搜索引擎来说
Allow: /article 允许爬取article的整个目录,即淘宝中的文章例如淘宝头条和一些攻 略等
Allow: /oshtml 允许爬取oshtml的整个目录,也是位于网站地图下的全球购,爱逛街 等列表页面
Allow: /wenzhang 允许爬取wenzhang的整个目录,内容可能与article类似
Disallow: /product/ 不允许爬取product的整个目录,即淘宝的商品等。
Disallow: / 以上没有提及的其他目录都是不允许爬取的
User-Agent: Googlebot 以下八条都是针对谷歌搜索引擎来说
Allow: /article 同百度
Allow: /oshtml 同百度
Allow: /product 同百度
Allow: /spu 允许爬取spu的整个目录,SPU是商品信息聚合的最小单位,是一组可 复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。 通俗点讲,属性值、特性相同的商品就可以称为一个SPU。 这个目录 下可能存放的是一些商品等
Allow: /dianpu 允许爬取dianpu的整个目录,即淘宝的店铺、商家等信息的目录
Allow: /wenzhang 同百度
Allow: /oversea 允许爬取oversea的整个目录,即一些针对海外用户的一些部分
Disallow: / 以上没有提及的其他目录都是不允许爬取的
User-agent: Bingbot 以下八条都是针对必应搜索引擎来说(与完全谷歌相同,就不单独拿 出来分析了)
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /wenzhang
Allow: /oversea
Disallow: /
User-Agent: 360Spider 以下4条都是针对360搜索引擎来说
Allow: /article 同百度
Allow: /oshtml 同百度
Allow: /wenzhang 同百度
Disallow: / 同百度
User-Agent: Yisouspider 以下4条都是针对易搜搜索引擎来说
Allow: /article
Allow: /oshtml
Allow: /wenzhang
Disallow: /
User-Agent: Sogouspider 以下5条都是针对搜狗搜索引擎来说
Allow: /article
Allow: /oshtml
Allow: /product
Allow: /wenzhang
Disallow: /
User-Agent: Yahoo! Slurp 以下6条都是针对雅虎搜索引擎来说
Allow: /product
Allow: /spu
Allow: /dianpu
Allow: /wenzhang
Allow: /oversea
Disallow: /
User-Agent: *
Disallow: / 其他没有提到的搜索引擎都是禁止爬取的
二、robots内部含义的分析
对国外的搜索引擎开放的可以爬取的目录都比国内的要多,可能因为要开发国外市场,但是可能考虑到搜索引擎的流量情况,对谷歌、必应开放爬取的目录要不雅虎高。