项目简介
Jarvis Crawler Core是一套分布式爬虫服务框架及页面编程机器人工具。可用于构建数据爬取集群、进行Web项目自动化测试,还能作为机器人操作web项目的子服务。该框架已应用于多个机器人项目,如群内自动翻译机器人、新闻推送频道等。
项目的主要特性和功能
- 分布式爬虫服务:支持多节点并行获取数据,提升数据爬取效率。
- 多功能服务:涵盖新闻抓取、翻译、页面分析、行业数据抓取等多种功能。
- gRPC服务支持:以gRPC为通信协议,实现高效的服务间通信。
- 跨语言客户端支持:提供node.js和Golang客户端,方便不同语言开发者使用。
- 灵活配置:可通过配置文件对服务地址、权限校验等参数进行灵活设置。
安装使用步骤
环境要求
建议使用Linux系统并安装Docker,内存2g及以上。M1 Mac下安装需使用指令npm install --target_arch=x64
。
安装部署
- 拉取Docker镜像:使用命令
docker push zerrozhao/jarviscrawlercore:latest
。 - 配置服务:修改配置文件
service.yaml
,建议放在cfg
目录下,可设置服务地址、权限校验token等。
客户端开发
- node.js客户端:通过
npm i jarviscrawlercore --save
安装依赖,调用例子见src/service/client2.js
。 - Golang客户端:使用
jccclient
即可。
启动服务
运行启动脚本,启动爬虫服务。
更新说明
- v0.7:依赖大幅更新。
- v0.6:调整
protos
结构,配合Charles
线上部署,逐步开放API服务,支持更多网站。 - v0.5:重构新闻功能,支持漫画下载和图片打包。
- v0.3:代码结构调整,支持移动设备网页抓取,支持直接attach到已存在的chrome,发布到dockerhub。
- v0.2:提升节点稳定性,支持更多类型网页抓取和多节点并行抓取。
- v0.1:支持新闻抓取、翻译和grpc服务。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】