可恶的larbin爬虫




日志文件出现了一种奇怪的爬虫larbin,由202.106.182.188 larbin_2.6.3+larbin2.6.3@unspecified.mail可以看出,该IP来自北京,larbin爬虫在短短时间内疯狂抓取了大量页面,肯定会消耗大量资源 ,可恶啊。:em12:

一开始看larbin2.6.3@unspecified.mail那格式,以为larbin用途是采集E-mail的。原来也是一种网页蜘蛛。larbin简介:larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。

互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。

虽说互联网含海量数据,但你用larbin干嘛呢,肯定不是用来当搜索引擎的。采集?我的新站也没必要吧。以后严重的话一定要想办法屏蔽这个IP段。

update:wordpress中利用robots.txt限制larbin爬虫访问

延伸阅读:

About dreamfree:

每天梦想睡到自然醒的孩纸伤不起...zZ

Find all posts by dreamfree | Visit Website

4 Responses to “可恶的larbin爬虫”
  1. 07.25.2008

    貌似我的log也有这个……

  2. 07.25.2008

    呵呵,可以利用robots.txt封掉的

  3. 05.10.2009

    我直接屏蔽了一个IP段!

  1. [...] 相关阅读:可恶的larbin爬虫 原创文章转载请注明,文章来源:睡到自然醒blog[... dreamfreeblog.com/index.php/148.html

Leave a Reply

使用新浪微博登陆


分类目录

文章存档

Event

欢迎上海地区摄影爱好者或自信MM参加 自然醒blog 线下活动:暴走上海街拍 or 人像外拍,详情点击图片链接

永久有效 7.49 美金 Godaddy 优惠