项目简介
本项目是名为“Catalyst”的基于Node.js的爬虫管理系统框架,寓意着能加速爬虫应用的开发。此框架聚焦于爬虫任务的管理与调度,让业务逻辑开发者可专注业务本身,不用操心网络错误、重试、时间控制等底层细节。
项目的主要特性和功能
主要特性
- 系统所有行为,如任务配置、调度等,均通过接口化完全控制。
- 具备二级并发控制。
- 拥有完善的时间控制机制,涵盖任务延迟、重试次数、指数放大重试间隔、随机扰动等。
- 支持灵活的优先级和超时控制。
- 采用插件机制,方便开发者扩展系统能力。
主要功能
- 支持多业务域管理,各业务域可设置独立的配置和插件。
- 提供任务类型定义,包含运行时配置、插件使用及核心业务逻辑。
- 具备任务调度功能,可实现任务的一次性或周期性执行。
- 任务自带调度子任务、日志打印、报错等方法。
- 支持多种插件,如用于操作统一数据接口的
data
、管理和对接代理池的proxy
、进行http请求的request
、在Chrome浏览器环境下访问网站的browser
。
安装使用步骤
- 复制项目:把项目复制到本地。
- 安装依赖:使用
npm install
安装项目所需依赖。 - 修改配置:根据需求修改
src/config.js
中的系统环境配置,如数据接口地址等。 - 创建业务逻辑任务:在
src/tasks
目录下创建业务逻辑任务,按框架规范编写任务配置和任务类型定义。例如,在tasks
下创建一个目录表示业务域,如xiaohongshu
,并在该目录下编写任务类型定义,如all.js
文件定义爬取小红书全站的任务。 - 启动系统:运行
node src/server.js
或者npm start
启动系统。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】