wordpress robots.txt避免重复内容(补充材料/补充结果)
决定给博客加上robots.txt,限制搜索引擎对相关页面的重复搜索,避免再次像上次被删减收录结果和以后可能出现Supplemental Results(补充材料/补充结果)。
网页被列入补充结果,在某种意义上代表着这些网页被Google认为是不可信任的页面,虽然现在俺文章数量还很少,没出现过这种现象,但当内容多时造成重复内容的可能性就很大,会引起搜索结果中页面的大量删减惩罚。可以说Supplemental Results是一种很危险的信号。
在google用site:dreamfreeblog.com语法搜索了下,发现睡到自然醒博客经过前几天大量收录-删减剩下不到几个页面风波后,现在又已经逐步开始恢复收录,从ftp日志里也能看出这几天goolgebot同学也是很勤奋,时不时光顾本博客。但今天发现还是出现了几个/?p=结果,当时已经去掉了footer最新文章和最近评论中/?p=动态地址,它又是通过哪个入口找到这种动态地址格式的...
结合原来免费空间上调试的博客收录经验,当时就是因为出现大量动态地址和静态链接内容重复后,进行了大量删减。所以还是尽早修复这个问题。
robots.txt主要格式参考Ryan Lee方法:
User-agent: *
Disallow: /?p=
Disallow: /index.php/feed
Disallow: /index.php/trackback
暂时只禁止/?p=入口,其它的到时再说吧。
文章来源:睡到自然醒blog[http://www.dreamfreeblog.com]
文章链接地址: http://www.dreamfreeblog.com/to-write-on-robotstxt-wordpress-69.html 收藏本文到网摘:

[...] blog search没有更新、正常收录博客日志了。一开始以为是为wordpress写的robots.txt 格式错误,限制了Google Blog Search蜘蛛Blogsearch [...]
:em17: ok,我参考一下。呵呵。
[回复]
[...] 对方那个“家伙”固定链接结构选择了域名后加相同的目录后缀/date/archives/,形如: - dreamfreeblog/date/archives/somepage.html for pages - dreamfreeblog/date/archives/ for archives - dreamfreeblog/date/archives/category for categories. 作者纳闷是不是这种URL地址暗示搜索引擎:/date/archives/目录非常重要,/date/archives/目录是一个“分类页面”,富含指向每篇文章链接(纵使/date/archives/不存在,或robots.txt已限制抓取索引该目录)。 MS门户网站都喜欢这种分类网址,搜索引擎更习惯这种链接? [...]