睡到自然醒blog

生物|生命科学| 医药健康| 科普| 分享| 学习| 交流|博客|WordPress|个人网站|

可恶的larbin爬虫

May 25th, 2008 · 4 Comments · 建站手记

日志文件出现了一种奇怪的爬虫larbin,由202.106.182.188 larbin_2.6.3+larbin2.6.3@unspecified.mail可以看出,该IP来自北京,larbin爬虫在短短时间内疯狂抓取了大量页面,肯定会消耗大量资源 ,可恶啊。:em12:

一开始看larbin2.6.3@unspecified.mail那格式,以为larbin用途是采集E-mail的。原来也是一种网页蜘蛛。larbin简介:larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。

虽说互联网含海量数据,但你用larbin干嘛呢,肯定不是用来当搜索引擎的。采集?我的新站也没必要吧。以后严重的话一定要想办法屏蔽这个IP段。

update:wordpress中利用robots.txt限制larbin爬虫访问

延伸阅读:

Tags: ·

4 Comments to "可恶的larbin爬虫" so far ↓

Leave a Comment

友情提醒:为有效防止垃圾留言,QQ、电话字眼已被加入黑名单,所以,想要索要我的QQ,请说暗号扣扣。当然,我的扣扣已经写在了这里,所以也请不要再索要偶的扣扣了。:)