项目简介
GSpider是基于Go语言实现的爬虫框架,搭配web管理页面,具备web和脚本独立部署的特性。它以gin和colly为基础进行开发,还通过gRPC实现了RPC服务,能够简化网络爬虫的开发与部署工作。
项目的主要特性和功能
- Web管理界面:基于vue - admin - template搭建,可进行任务管理、抓取规则定义、任务调度等操作。
- 脚本服务:采用colly库,支持多线程抓取与自定义抓取规则。
- RPC服务:借助gRPC实现任务管理与控制,能远程启动、停止、查询任务。
- 抓取规则定义:提供灵活机制,支持URL过滤、HTTP头修改、页面解析等多种规则。
- 任务调度:支持基于cron的任务调度,可自定义执行频率和时间。
- 错误处理和重试:有请求失败重试机制,保障爬虫稳定性与可靠性。
- 结果存储:支持将抓取结果存入Redis或MySQL等数据库,方便后续分析处理。
安装使用步骤
- 安装依赖:确保已安装Go语言环境,下载项目源码。
- 数据库配置:把gspider.sql导入MySQL数据库,按需修改configs/app - ga.yaml配置文件。
- 构建项目:进入internal/router目录,执行parckr2 build命令。
- 编译服务:分别使用go build -o cmd/web/main cmd/web/main.go和go build -o cmd/job/main cmd/job/main.go编译web服务和脚本服务。
- 启动服务:分别执行./cmd/web/main -conf=configs/app - ga.yaml和./cmd/job/main -conf=configs/app - ga.yaml启动web服务和脚本服务。
- 访问管理后台:在浏览器输入http://localhost:9526/admin访问管理后台。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】