项目简介
本项目是基于Python的微信爬虫程序,可自动爬取指定微信公众号的所有历史文章,获取文章的阅读数、点赞数和评论数。借助fiddler和appium工具模拟人工操作来抓取所需参数,将数据存储于MongoDB,还能导出为Excel文件。
项目的主要特性和功能
- 自动爬取微信公众号文章:自动获取指定微信公众号所有历史文章链接,爬取每篇文章的阅读数、点赞数和评论数。
- 参数自动更新:利用appium模拟人工点击文章,fiddler自动抓取并更新失效参数,保证爬虫持续运行。
- 数据存储与导出:爬取的数据存于MongoDB,支持导出为Excel文件,便于进一步分析处理。
- 环境配置自动化:提供详细的工具和依赖包安装步骤,助用户快速配置开发环境。
安装使用步骤
1. 环境配置
1.1 安装fiddler4
- 下载并安装fiddler4:下载地址。
- 配置fiddler4以抓取特定网页请求,并保存登录cookie和token到指定文件。
1.2 安装appium
- 配置Android SDK,并设置环境变量。
1.3 安装夜神安卓模拟器
- 下载并安装夜神安卓模拟器:下载地址。
- 在模拟器中安装微信6.7.3版本。
1.4 安装MongoDB
2. 安装Python依赖包
bash
pip install appium selenium requests_html requests pymongo urllib3
3. 执行步骤
- 打开fiddler,修改fiddler rules并设置好手机端抓包,使fiddler可以抓取到手机网络信息。
- 开启appium服务,确保appium可以操纵手机。
- 开启MongoDB服务。
- 打开微信6.7.3,提前关注好需要爬取的微信公众号。
- 登录微信公众号平台,查找并获取公众号历史文章链接。
- 在项目主文件中填入所爬公众号名字,运行主文件即可自动爬取所给公众号所有历史文章。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】