网站禁止爬虫协议robots.txt写法
七娃博客1,205 次
最近经常查爬虫协议,就随便总结一下,方便自己使用;
robots.txt文件放置网站的根目录中,根目录!
建站之时,我们会禁止所有爬虫,因为我们的网站此时还没有准备好,所以不能让爬虫爬去进行收录,这时就会写在爬虫协议里面:
User-Agent: * Disallow: /
反之,建好站需要让所有的爬虫进来,那怎么写呢?把disallow后面的/去掉即可
User-Agent: * Disallow:
注意:
1.一个网站只能用一次 User-Agent;
2.禁止访问一个文件夹用Disallow:/文件夹名;
3.写好时候格式为txt,并上传到网站跟目录,能通过http://www.域名.com/robots.txt,能够访问成功才算生效,也可以去百度站长robots检查是否生效!
评论 | 0 条评论
登录之后才可留言,前往登录