给推荐几个github上优秀的java爬虫项目?

2025-04-16 03:54:44

推荐回答（1个）

回答1：

1.nutch
地址：apache/nutch · GitHub
apache下的开源爬虫程序，功能丰富，文档完整。有数据抓取解析以及存储的模块。

2.Heritrix
地址：internetarchive/heritrix3 · GitHub
很早就有了，经历过很多次更新，使用的人比较多，功能齐全，文档完整，网上的资料也多。有自己的web管理控制台，包含了一个HTTP 服务器。操作者可以通过选择Crawler命令来操作控制台。

3.crawler4j
地址：yasserg/crawler4j · GitHub
因为只拥有爬虫的核心功能，所以上手极为简单，几分钟就可以写一个多线程爬虫程序。

当然，上面说的nutch有的功能比如数据存储不代表Heritrix没有，反之亦然。具体使用哪个合适还需要仔细阅读文档并配合实验才能下结论啊~
还有比如JSpider，WebEater，Java Web Crawler，WebLech，Ex-Crawler，JoBo等等，这些没用过，不知道。。。