在网站优化这一块里面,robots文件的设置是占据很重要的位置的。robots文件是什么?它是网站跟爬虫间的协议,也就是说你的网站那些内容想被爬取,哪些内容不想被爬取都是通过robots文件来告诉蜘蛛的。当搜索蜘蛛去访问一个站点的时候它会首先检查该站点根目录下是否存在robots.txt。有些站长一直说自己网站没有收录,有时候可能就是因为robots文件没设置好。
什么是robots文件?
搜索引擎自动访问互联网上的网页并且获取网页信息是通过一种叫做robot的程序,又称spider,也就是我们经常说的蜘蛛。
而robots文件就是站长和蜘蛛之间达成的一个协议或声明,在这个文件中就声明了网站中不想被robot访问的部分,这样该网站的部分或全部内容就可以不被搜索引擎收录,或者搜索引擎只收录指定的内容。
注意:robots.txt协议并不是一个规范,只是一种约定俗成,所以并不能保证网站的隐私。
robots.txt文件怎么写?
首先要认识User-agent、Disallow、Allow是什么意思:
User-agent表示定义哪个搜索引擎,如User-agent:Baiduspider,定义百度蜘蛛;
Disallow表示禁止访问;
Allow表示运行访问;
通过以上三个命令,可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面,且对字母大小有限制,文件名必须为小写字母,所有的命令第一个字母需大写,其余的小写。且命令之后要有一个英文字符空格。
robots.txt写法详解
1、允许所有搜索引擎访问所有目录
User-agent: *
Allow: /
这里的*表示所有
2、禁止所有所有引擎访问所有目录
User-agent: *
Disallow: /
3、禁止爬虫访问网站中的某些目录
User-agent: *
Disallow: /123
这种是禁止爬虫访问/123开头的所有文件,像http://www.vipshan.com/1234/、http://www.vipshan.com/123/1.html、http://www.vipshan.com/12345/1.html等都不能被抓取
User-agent: *
Disallow: /123/
禁止爬虫访问/123/目录下面的所有文件。
4、禁止爬虫访问某一类文件:
User-agent: *
Disallow: /*.css$ 禁止访问所有css结尾的文件
Disallow: /*.js$ 禁止访问所有js结尾的文件
Disallow: /*.php$ 禁止访问所有php结尾的文件
Disallow: /123/*.jpg$ 禁止访问/123/目录下的jpg结尾的文件
注意:*表示所有,$表示结尾,上面的汉字不用写进robots去!!!
5、禁止访问网站中的动态页面:
User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止访问/123/目录下的动态页面
注意:?表示动态路径,*表示所有。
6、禁止访问某些字母开头的目录
可以巧用这个技巧来隐藏我们网站的一些目录,例如网站后台。假设www.vipshan.com的后台目录是/abcdef/可以这样写:
User-agent: *
Disallow: /abc*
注意:这样可以就表示所有abc开头的目录都不能访问,所以要注意一下不要禁止了需要被抓取的栏目。
7、禁止访问和允许访问同时存在的情况
假设/123/这个栏目下有1.html、2.html、3.html这样三个文件,要允许访问1.html而其他的要禁止,可以这样写:
User-agent: *
Allow: /123/1.html
Disallow: /123/
8、自定义搜索引擎:
用User-agent:来定义搜索引擎,*表示所有
百度爬虫名字:11Baiduspider
谷歌爬虫名字:Googlebot(列举两个,其他的名称自己搜下)
User-agent: Baiduspider表示自定义百度蜘蛛
User-agent: Googlebot表示自定义谷歌蜘蛛
这个可以参考淘宝的。
robots文件设置注意事项
1、文件后缀及大小写
robots文件的后缀必须是.txt;robots文件必须全小写字母命名;在写robots文件的时候,Disallow、Allow、Sitemap等词首字母必须大写,后面的字母则要小写。
2、robots文件放在哪?
robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。
3、注意空格
特别注意,在书写robots事,应用英文状态下的冒号,并且冒号后面必须有一个英文状态下的空格。
4、都需要抓取是否就不用设置?
有的站长可能觉得如果网站所有文件都需要蜘蛛抓取,那就没必要添加robots文件,因为如果这个文件不存在,那蜘蛛也将默认访问网站上所有没有被口令保护的页面。这里要注意一种情况,如果用户试图访问一个不存在的url,服务器就会在日志中记录404错误。当蜘蛛来寻找不存在的robots文件时,服务器也将在日志中记录一条404错误,所以网站应该都要设置robots文件。
5、为了增加网站收录率robots文件中设置所有文件都能被抓取可以吗?
不可以。因为网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
robots.txt有什么用?
在seo这一块里面,robots.txt可是占据着重要地位的。那它到底有什么用呢?
1、提高访问速度
由于搜索引擎在进行抓取的时候会耗费服务器带宽,如果网站页面过多的话就会导致网站的加载速度变慢,这样是会影响到爬虫的抓取以及用户的浏览体验。如果在robots文件里面设置禁止抓取一些不那么重要的页面,就可以提高蜘蛛抓取的效率,也能节省更多的带宽,提高访问速度。
2、提高收录效果
每个网站肯定不可能所有的页面都是很重要的,重要重要和非重要的页面。如果通过robots文件减少蜘蛛对非重要页面的抓取,把爬行重点放在重要页面上,可以帮助重要页面获取更多的权重,这样网站的友好度也会有所提高。比如还有像建站时会产生一些临时页面,如果没有对这些页面进行设置的话,蜘蛛也会抓取这些页面,这样就会影响到对重点页面的抓取。
以上就是关于robots文件的介绍,希望对您有所帮助!
【版权与免责声明】如发现内容存在版权问题,烦请提供相关信息发邮件至 lnkj@3173.top ,我们将及时沟通与处理。 本站内容除了3117站长服务平台( www.3117.cn )原创外,其它均为网友转载内容,涉及言论、版权与本站无关。