wordpress中利用robots.txt限制larbin爬虫访问
大致知道可以通过修改.htaccess文件限制某一特定IP或某IP段的访问,但由于俺对那种语言写法天生恐惧,也摸不着什么头脑,而且.htaccess貌似在Apache服务环境下才有效,作罢。
暂时也只能通过利用robots.txt禁止larbin了,主要原因还是larbin简直太疯狂了,能在很短时间内抓取大量页面,覆盖率简直比正规的搜索引擎BOT还高。而且昨天百度收录又骤减至3页面。怀疑最近百度收录不稳定可能是由于larbin爬虫刚好在baiduspider来访时浪费了带宽而造成baidu蜘蛛不能正常抓取,让baidu蜘蛛产生了网站不存在的幻觉?这种解释可能性虽然不是很大,因为baidu暂时不能抓取不大会引起删减已经收录结果。除了象上次被百度惩罚拔毛后重新提交了下网站地址,暂时只能这样了。
robots.txt写法:
User-agent: larbin
Disallow: /
推荐一个检查robots.txt写法是否正确的Checker:New Robots.txt Syntax Checker ,输入根目录下robots.txt路径点check即可,它可以分析robots.txt写法并给出建议,和错误写法警告。
相关阅读:可恶的larbin爬虫
文章来源:睡到自然醒blog[http://www.dreamfreeblog.com]
文章链接地址: http://www.dreamfreeblog.com/wordpress-robotstxt-larbin-bot-148.html 收藏本文到网摘:

[...] PS:貌似上次通过robot.txt限制larbin是有效的,毕竟它还是遵守robot协议的。 收藏本文到网摘: 原创文章转载请注明,文章来源:睡到自然醒blog[http://www.dreamfreeblog.com] 文章链接地址: http://www.dreamfreeblog.com/index.php/151.html Thread Tags: 补充结果, robots.txt, 搜索引擎, 收录 上一篇« 2008.6.7-2008.6.7全国高考进行时 下一篇 [...]
[...] update:wordpress中利用robots.txt限制larbin爬虫访问 原创文章转载请注明,文章来源:睡到自然醒blog[http://www.dreamfreeblog.com] 文章链接地址: http://www.dreamfreeblog.com/index.php/114.html 收藏本文到网摘: Thread Tags: 蜘蛛, larbin (我要投票) Loading ... 上一篇»名词解释-碱性亮氨酸拉链(basic region-leucine zipper,bZIP) 下一篇»计算系统生物学-Computational systems biology简介 [...]
[...] update:wordpress中利用robots.txt限制larbin爬虫访问 转载请保留以下信息:文章来源:睡到自然醒blog[http://www.dreamfreeblog.com] 文章链接地址: http://www.dreamfreeblog.com/abhorrent-larbin-spider-bot-114.html 收藏本文到网摘: Thread Tags: 蜘蛛, larbin (我要投票) Loading ... 上一篇»名词解释-碱性亮氨酸拉链(basic region-leucine zipper,bZIP) 下一篇»计算系统生物学-Computational systems biology简介 [...]