开源的Web爬虫webmagic
webmagic是一个开源的Java垂直爬虫框架,覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。
webmagic的主要特色:
- 完全模块化的设计,强大的可扩展性。
- 提供丰富的抽取页面API。
- 无配置,但是可通过POJO+注解形式实现一个爬虫。
- 支持多线程。
- 支持分布式。
- 支持爬取js动态渲染的页面。
- 无框架依赖,可以灵活的嵌入到项目中去。
OSP(Open Source Pie)介绍新奇,有趣,实用的免费开源软硬件,为IT爱好者提供了一个发现、使用、并交流开源技术的平台
webmagic是一个开源的Java垂直爬虫框架,覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。
webmagic的主要特色:
发表回复