
日志文件出现了一种奇怪的爬虫larbin,由202.106.182.188 larbin_2.6.3+larbin2.6.3@unspecified.mail可以看出,该IP来自北京,larbin爬虫在短短时间内疯狂抓取了大量页面,肯定会消耗大量资源 ,可恶啊。
一开始看larbin2.6.3@unspecified.mail那格式,以为larbin用途是采集E-mail的。原来也是一种网页蜘蛛。larbin简介:larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。
互联网是一个庞大的非结构化的数据库,将数据有效的检索并组织呈现出来有着巨大的应用前景,尤其是类似RSS的以XML为基础的结构化的数据越来越多,内容的组织方式越来越灵活,检索组织并呈现会有着越来越广泛的应用范围,同时在时效性和可读性上也会有越来越高的要求。这一切的基础是爬虫,信息的来源入口。一个高效,灵活可扩展的爬虫对以上应用都有着无可替代的重要意义。
虽说互联网含海量数据,但你用larbin干嘛呢,肯定不是用来当搜索引擎的。采集?我的新站也没必要吧。以后严重的话一定要想办法屏蔽这个IP段。
update:wordpress中利用robots.txt限制larbin爬虫访问




貌似我的log也有这个……
回复
wordpress中利用robots.txt限制larbin爬虫访问 | 睡到自然醒blog // Jul 25, 2008 at 9:34 am
[...] 相关阅读:可恶的larbin爬虫 原创文章转载请注明,文章来源:睡到自然醒blog[http://www.dreamfreeblog.com] 文章链接地址: http://www.dreamfreeblog.com/index.php/148.html 收藏本文到网摘: Thread Tags: larbin, robots.txt, WordPress, 搜索引擎 (我要投票) Loading … 上一篇»经典毕业离别歌曲15首 下一篇»在wordpress单篇文章底部增加’上一篇”下一篇’日志 [...]
呵呵,可以利用robots.txt封掉的
回复
我直接屏蔽了一个IP段!
回复