【源码】基于Python的微信公众号爬虫系统

项目简介

本项目是基于Python的微信公众号爬虫系统，通过模拟手机微信客户端请求，批量爬取微信公众号文章内容。抓包获取微信历史文章分页接口，避免了传统方案文章不全、账号被封等问题，且支持多微信账号切换，能高效爬取大量文章。

安装Genymotion模拟器：
- 下载安装Genymotion模拟器，选择Custom Phone API 8.0版本。
- 安装ARM_Translation_Oreo和微信6.7.3版本。
- 配置ADB路径，确保模拟器正常启动。
安装依赖库：
- 安装Python 3.6.8及以上版本。
- 安装项目所需Python库： bash pip install pymongo redis scrapy baidu-aip Pillow numpy
- 安装Node.js 8.16.1及以上版本，并全局安装AnyProxy： bash npm install -g anyproxy
配置数据库：安装并启动MongoDB和Redis数据库。

修改配置文件：
- 在/weixin_articles_spider/configs/auth.py中配置百度API的密钥。
- 在/weixin_articles_spider/assets/fakenames.conf中添加要爬取的微信公众号ID。
启动代理：
- 进入/weixin_articles_spider/proxy目录，启动AnyProxy： bash npm install node proxy.js
生成任务：
- 进入/weixin_articles_spider/biz目录，运行任务生成脚本： bash python main.py
启动爬虫：
- 进入/weixin_articles_spider/android_scrapy目录，启动爬虫： bash python main.py
启动模拟器操作：
- 进入/weixin_articles_spider/android目录，启动模拟器操作脚本： bash python main.py
等待爬取完成：
- 爬取完成后，进入/weixin_articles_spider/android_scrapy目录，运行文章爬虫： bash scrapy crawl ArticleSpider
- 爬取结果将存储在/weixin_articles_spider/android_scrapy/output目录中。

本项目仅供学习和研究使用，请勿用于商业用途或侵犯他人权益。

点击下载 【提取码: 4003】【解压密码: www.makuang.net】