当搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt。如果存在,搜索蜘蛛就会根据该文件中的规则是否包含屏蔽的路径,告知蜘蛛不被抓取收录;如果不存在,默认所有蜘蛛都可以被抓取的。像PHP动态页面(包括伪静态)、敏感的后台管理地址等这样的,你的网站结构不同,要屏蔽的路径数量实在太多,不能一一手动设置,因此,大可可以参照以下规则这样设置:

User-agent: *
Disallow: /*?*
Disallow: /*#*
Disallow: /*.php$

另一个方法,不想国外蜘蛛、伪蜘蛛来抓取你的网站,当然这可以减少对网站抓取的频率次数,也能提升网站性能。

譬如百度、搜狗等这些国内蜘蛛,除这几个之外,其它蜘蛛一刀切的全部屏蔽对网站的抓取。

User-agent: Baiduspider
Disallow: /*?*
Disallow: /*#*
Disallow: /*.php$ 
User-agent: *
Disallow: /
【免责声明】本文由悦略设计发布,仅供学习参考,其版权归原作者所有;所有文章和评论均不代表本站观点;请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗、后果自负,一切与本站无关且不承担任何责任!如需转载,要注明原作者和来源;如发现有害或侵权内容,请点击[留言咨询]或联系我们删除![查看更多]