当搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt。如果存在,搜索蜘蛛就会根据该文件中的规则是否包含屏蔽的路径,告知蜘蛛不被抓取收录;如果不存在,默认所有蜘蛛都可以被抓取的。像PHP动态页面(包括伪静态)、敏感的后台管理地址等这样的,你的网站结构不同,要屏蔽的路径数量实在太多,不能一一手动设置,因此,大可可以参照以下规则这样设置:
User-agent: *
Disallow: /*?*
Disallow: /*#*
Disallow: /*.php$
另一个方法,不想国外蜘蛛、伪蜘蛛来抓取你的网站,当然这可以减少对网站抓取的频率次数,也能提升网站性能。
譬如百度、搜狗等这些国内蜘蛛,除这几个之外,其它蜘蛛一刀切的全部屏蔽对网站的抓取。
User-agent: Baiduspider
Disallow: /*?*
Disallow: /*#*
Disallow: /*.php$
User-agent: *
Disallow: /
本文由悦略设计发表,其版权均为悦略设计所有,文章内容系作者个人观点,不代表悦略设计对观点赞同或支持。如需转载,请注明文章来源。如有侵权,请联系本站立即删除!
评论(1)
后者屏蔽大量伪蜘蛛有好处。