项目简介
本项目是基于Scrapy框架开发的爬虫程序,主要用于从腾讯招聘网站爬取招聘信息。用户可以利用该爬虫获取腾讯招聘的职位名称、详情链接、职位类别、招聘人数、工作地点和发布时间等数据,为后续的数据分析和职业研究提供支持。
项目的主要特性和功能
- 精准爬取:能够从腾讯招聘网站上准确爬取详细的职位信息。
- 数据存储:将爬取到的职位信息存储到本地的JSON文件中,便于后续数据分析和处理。
- 自动翻页:支持自动翻页功能,最大可爬取168页的招聘信息。
- 合法合规:默认遵守网站的robots.txt协议,确保爬虫行为的合法性。
安装使用步骤
前提条件
确保已经安装了Scrapy框架。
操作步骤
- 进入项目目录:
bash cd tencent
- 安装依赖:
bash pip install -r requirements.txt
- 运行爬虫:
bash scrapy crawl tencent
- 查看结果:爬取到的职位信息会存储在项目根目录下的
tencent.json
文件中。
注意事项
- 若需调整爬取策略,可修改
settings.py
文件中的相关配置。 - 若要爬取更多页面的数据,请修改
tencentPosition.py
文件中的offset
值。
下载地址
点击下载 【提取码: 4003】