通过WordPress建立的网站,里面的robots相比大家应该也都不陌生,一些新手站长对robots的写法设置存在一些问题,通常只有合理的设置才有利于优化网站。那么,如何通过robots.txt设置进行wordpress博客的优化了,下面就为大家进行分析。
一、robots.txt的基本概念:
robots.txt文件是存放在网站的根目录下面的ASCII编码得文本文件,其就是告诉搜索引擎的漫游器,作用是释放信息告诉搜素引擎哪些内容是不需要进行获取的,那些是需要获取的。该文件也是规定spider在网站中抓取的范围,也是对网站的一些隐秘文件进行保护,并且防止站点的页面被网站重复的抓取。
robots.txt目前也就是一种协议,并不是什么标准,因此搜素引擎robots.txt协议中的指令参数存在多种看待。
二、robots.txt使用注意事项:
1、对大小写指令存在区分,未知的指令则被忽视;
2、指令是一行代表一个,出现的隔行与空白是被忽略的;
3、“#”之后出现的字符参数也都会被忽略;
4、存在独立的User-agent规则,将会被通配“*”User agent的规则排除在外;
5、可以将sitemap文件的链接写入进去,有利于搜索引起蜘蛛对整站的内容进行爬行;
6、协议中尽量不要出现Allow指令,不同的搜索引擎对Allow指令不同位置的看待也是不同的。
三、Wordpress的robots.txt优化设置
1、User-agent: *
进行网站robots.txt指令设置是需要面向所有的spider程序,就需要使用通配符“*”。若存在独立的User-agent的指令规则,需要尽量将指令放到通配“*”User agent规则的上方去。
2、Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
屏蔽spider捉取程序文件,同时也节约了搜索引擎蜘蛛资源。
3、Disallow: /*/trackback
在每一个文章页面的默认代码中,都会有一个trackback的链接,如果不进行屏蔽,被蜘蛛进行捉取了,网站的页面就将会出现问题。
4、Disallow: /feed
Disallow: /*/feed
Disallow: /comments/feed
在网站的头部代码中有一个feel链接,其主要的作用是提示用户可以对本站进行订阅,为了防止网站的权重被瓜分,通常会在网站的RSS输出和网站地图等,进行屏蔽搜索引擎捉取这些链接。
5、Disallow: /?s=*
Disallow: /*/?s=*
这是进行屏蔽捉取站内的搜索结果了,当站内不存在这些链接,站外可能会有,如出现了收录就会导致与TAG等一些页面的内容差不多的现象。
6、Disallow: /?r=*
对留言链接的插件所留下来的出现变形的链接进行屏蔽。若无该插件的网站的可以不要安装该插件。
7、Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$
对图片文件的捉取进行屏蔽,这样可以有效地节约宽带资源,这几条不同型号的指令可根据自身喜好进行设置。
8、Disallow: /?p=*
对短连接捉取进行屏蔽。如头部默认的短连接、百度等搜索引擎蜘蛛都会进行捉取,虽然使用了301跳转到固定连接上,但是还会造成资源的浪费。
9、Disallow: /*/comment-page-*
Disallow: /*?replytocom*
对留言的信息内容捉取进行屏蔽。
10、Disallow: /a/date/
Disallow: /a/author/
Disallow: /a/category/
Disallow: /?p=*&preview=true
Disallow: /?page_id=*&preview=true
Disallow: /wp-login.php
对一些其他的链接进行屏蔽,避免出现重复内容和隐私问题。
10、Sitemap:http://***.com/sitemap.txt
网站地图的地址指令,txt和xml格式是现在主流的。是为了让搜索引擎知道网站的地图地址,方便对全站的内容进行捉取。其中Sitemap的S实需要进行大写的,地图地址也要使用绝对地址。
好了,以上就是如何通过robots.txt进行wordpress博客的优化的详细内容,希望可以帮助刚接触wordpress博客的同学。
分类:新闻资讯