项目简介
本项目是基于Scrapy - Redis框架构建的分布式爬虫系统,目标是爬取房天下网站上的全国房源信息。借助Scrapy - Redis架构达成多机并行爬取,极大提升了爬取效率。
项目的主要特性和功能
- 分布式爬取:采用Scrapy - Redis架构,支持多台机器并行爬取,加快爬取速度。
- 多类型房源信息爬取:可爬取新房和二手房信息,涵盖房源名称、户型、面积、地址、区域、销售状态、价格等关键内容。
- Redis集成:使用Redis作为消息队列和去重存储,实现爬虫的分布式控制与数据共享。
- 配置灵活:提供项目配置文件,便于用户进行自定义配置与调试。
- 数据存储:将爬取数据保存为JSON文件,利于后续数据处理与分析。
安装使用步骤
环境准备
- 确保已安装Python和Scrapy环境。
- 安装Scrapy - Redis库:
pip install scrapy - redis
。
配置Redis服务器
- 修改Redis服务器的配置文件
redis.conf
,把bind
设置为本机IP或0.0.0.0
,方便其他机器访问。 - 启动Redis服务器:
redis - server redis.conf
。
项目部署
- 复制或下载本项目的源代码。
- 将项目文件部署到爬虫服务器上。
运行爬虫
- 在爬虫服务器上进入项目目录,运行爬虫脚本:
scrapy runspider sfw.py
。 - 在Redis服务器上推送初始URL以启动爬取:
redis - cli lpush fang:start_urls https://www.fang.com/SoufunFamily.htm
。
查看结果
爬取完成后,生成的房源信息会保存为newhouse.json
和esfhouse.json
文件,位于项目目录下。
注意事项
- 项目中的Redis服务器配置为本地地址,若有需求,可修改
settings.py
中的REDIS_HOST
和REDIS_PORT
为实际的Redis服务器地址和端口。 - 要保证所有爬虫服务器和Redis服务器之间网络连接畅通。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】