wordpress中利用robots.txt限制larbin爬虫访问

大致知道可以通过修改.htaccess文件限制某一特定IP或某IP段的访问,但由于俺对那种语言写法天生恐惧,也摸不着什么头脑,而且.htaccess貌似在Apache服务环境下才有效,作罢。

暂时也只能通过利用robots.txt禁止larbin了,主要原因还是larbin简直太疯狂了,能在很短时间内抓取大量页面,覆盖率简直比正规的搜索引擎BOT还高。而且昨天百度收录又骤减至3页面。怀疑最近百度收录不稳定可能是由于larbin爬虫刚好在baiduspider来访时浪费了带宽而造成baidu蜘蛛不能正常抓取,让baidu蜘蛛产生了网站不存在的幻觉?这种解释可能性虽然不是很大,因为baidu暂时不能抓取不大会引起删减已经收录结果。除了象上次被百度惩罚拔毛后重新提交了下网站地址,暂时只能这样了。

robots.txt写法:
User-agent: larbin
Disallow: /

推荐一个检查robots.txt写法是否正确的Checker:New Robots.txt Syntax Checker ,输入根目录下robots.txt路径点check即可,它可以分析robots.txt写法并给出建议,和错误写法警告。

相关阅读:可恶的larbin爬虫

转载请保留以下信息:
文章来源:睡到自然醒blog[http://www.dreamfreeblog.com]
文章链接地址: http://www.dreamfreeblog.com/wordpress-robotstxt-larbin-bot-148.html

收藏本文到网摘: Del.icio.us Google书签 Digg Live Bookmark Technorati Furl Yahoo书签 Facebook 百度搜藏 新浪ViVi 365Key网摘 天极网摘 和讯网摘 博拉网 POCO网摘 添加到饭否 QQ书签 Digbuzz我挖网
1 Star2 Stars3 Stars4 Stars5 Stars (我要投票)
Loading ... Loading ...

Share your opinion! Post your thoughts.