项目简介
本项目是一个基于Python的爬虫程序,旨在爬取链家网(lianjia.com)和贝壳网(ke.com)的房价数据。它能够获取不同城市的小区数据、挂牌二手房、出租房以及新房数据,还配备了工具脚本用于下载二手房图片、清理数据文件和日志文件等。
项目的主要特性和功能
- 可爬取链家网和贝壳网的房价数据,涵盖小区、挂牌二手房、出租房和新房信息。
- 支持21个主要城市的数据爬取。
- 兼容Python2和Python3环境。
- 基于页面数据爬取,稳定性强。
- 代码注释丰富,便于理解和扩展功能。
- 数据按城市、区县、板块、小区、二手房、租房、新房等分类,以CSV文件形式存储。
- 支持图表展示,如小区和区县的房价排名。
- 可设置随机延迟和并发爬虫数,防止IP被封。
- 提供工具脚本,用于清理数据文件和下载二手房图片。
安装使用步骤
- 安装依赖库:在命令行运行
pip install -r requirements.txt
来安装所需的Python库。 - 设置环境变量:把项目目录添加到系统环境变量PYTHONPATH中。
- 指定爬取网站:修改
lib/spider/base_spider.py
里的SPIDER_NAME
变量,选择LIANJIA_SPIDER
或BEIKE_SPIDER
。 - 运行爬虫:依据需求运行对应的爬虫脚本,例如
xiaoqu.py
、ershou.py
、zufang.py
、loupan.py
等。 - 清理数据:运行
tool/clean.py
对数据文件和日志文件进行清理。 - 下载二手房图片:运行
tool/download_ershou_image.py
下载二手房图片。
注意:实际使用时,要遵守目标网站的使用条款,避免因频繁访问导致IP被封禁。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】