wordpress中利用robots.txt限制larbin爬虫访问




大致知道可以通过修改.htaccess文件限制某一特定IP或某IP段的访问,但由于俺对那种语言写法天生恐惧,也摸不着什么头脑,而且.htaccess貌似在Apache服务环境下才有效,作罢。

暂时也只能通过利用robots.txt禁止larbin了,主要原因还是larbin简直太疯狂了,能在很短时间内抓取大量页面,覆盖率简直比正规的搜索引擎BOT还高。而且昨天百度收录又骤减至3页面。怀疑最近百度收录不稳定可能是由于larbin爬虫刚好在baiduspider来访时浪费了带宽而造成baidu蜘蛛不能正常抓取,让baidu蜘蛛产生了网站不存在的幻觉?这种解释可能性虽然不是很大,因为baidu暂时不能抓取不大会引起删减已经收录结果。除了象上次被百度惩罚拔毛后重新提交了下网站地址,暂时只能这样了。

robots.txt写法:
User-agent: larbin
Disallow: /

推荐一个检查robots.txt写法是否正确的Checker:New Robots.txt Syntax Checker ,输入根目录下robots.txt路径点check即可,它可以分析robots.txt写法并给出建议,和错误写法警告。

相关阅读:可恶的larbin爬虫

延伸阅读:

About dreamfree:

每天梦想睡到自然醒的孩纸伤不起...zZ

Find all posts by dreamfree | Visit Website

3 Responses to “wordpress中利用robots.txt限制larbin爬虫访问”
  1. [...] PS:貌似上次通过robot.txt限制larbin是有效的,毕竟它还是遵守robot协议的。 收藏... dreamfreeblog.com/index.php/151.html
  2. [...] update:wordpress中利用robots.txt限制larbin爬虫访问 原创文章转载请注明,文章来源... dreamfreeblog.com/index.php/114.html
  3. [...] update:wordpress中利用robots.txt限制larbin爬虫访问 转载请保留以下信息:文章来源... dreamfreeblog.com/abhorrent-larbin-spider-bot-114.html

Leave a Reply

使用新浪微博登陆


分类目录

文章存档

Event

欢迎上海地区摄影爱好者或自信MM参加 自然醒blog 线下活动:暴走上海街拍 or 人像外拍,详情点击图片链接

永久有效 7.49 美金 Godaddy 优惠