淘宝
https://www.taobao.com/robots.txt
举例 对百度蜘蛛
User-agent: Baiduspider
Allow: /article
Allow: /oshtml
Allow: /wenzhang
Disallow: /product/
Disallow: /
/article目录与商品相关,/oshtml目录与淘宝的全球购市场有关,/wenzhang目录大致是页面的文字内容。禁止访问product目录的一切有关内容,防止抓取商品自身。
淘宝在几年前曾宣布完全禁止百度的抓取,一方面是担心百度抓取其数据用于自身购物平台,另一方面是想通过屏蔽百度搜索强行改变用户行为的举动。不过目前淘宝的影响力、知名度在业界都居于首位。淘宝逐渐对百度蜘蛛的开放,也是因为其对淘宝越来越有利,淘宝用到了百度的流量,获取网名更多的关注度。
预计以后淘宝会对搜索引擎的抓取开放更多。
百度
https://www.baidu.com/robots.txt
例 对谷歌蜘蛛
User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
Disallow: /ulink?
Disallow: /link?
从百度的robot.txt文件中可以看出。
百度表明了对 Baiduspider(百度自己的蜘蛛,防止自己的抓取以防止出现死循环),Googlebot(谷歌的蜘蛛),MSNBot(MSD的蜘蛛),Baiduspider-image(百度图片的蜘蛛),YoudaoBot(有道的蜘蛛),Sogou(搜狗的蜘蛛,很多种), ChinasoSpider(中搜的蜘蛛),Sosospider(搜搜的蜘蛛), yisouspider(一搜的蜘蛛),EasouSpider(宜搜的蜘蛛)的权限,以上网站不能抓取baidu网站下的baidu,cpro文件夹,不能检索所有含“s?”的链接,不能检索含有shifen,homepage这些目录的一切有关内容,不能检索ulink?和link?链接带出的内容。
而其它的搜索引擎蜘蛛,则一律禁止访问任何百度给出的信息。