项目简介
本项目是基于Python的社交媒体数据爬取系统,可自动化抓取小红书、抖音、快手、B站、微博等平台上的视频、图片、评论、点赞、转发等信息。通过模拟用户登录和执行JavaScript表达式,能高效获取加密参数,降低逆向工程难度。
项目的主要特性和功能
- 多平台支持:可对小红书、抖音、快手、B站、微博等多个社交媒体平台进行数据爬取。
- 多种登录方式:支持Cookie登录和二维码登录,且有登录状态缓存功能。
- 数据搜索与爬取:能根据关键词搜索内容,还可指定视频或帖子ID进行详细爬取。
- 数据保存:支持将数据保存到关系型数据库(如Mysql、PgSQL)、CSV文件和JSON文件中。
- IP代理池:内置IP代理池,可动态更换IP避免被封禁。
- 滑块验证码处理:部分平台支持滑块验证码的处理。
安装使用步骤
假设用户已经下载了本项目的源码文件。
1. 创建并激活Python虚拟环境
```shell cd MediaCrawler
python -m venv venv
source venv/bin/activate venv\Scripts\activate ```
2. 安装依赖库
shell
pip3 install -r requirements.txt
3. 安装Playwright浏览器驱动
shell
playwright install
4. 运行爬虫程序
```shell python main.py --platform xhs --lt qrcode --type search
python main.py --platform xhs --lt qrcode --type detail
python main.py --help ```
5. 数据保存
- 关系型数据库:支持Mysql、PgSQL等数据库。
- CSV文件:数据将保存到
data/
目录下的CSV文件中。 - JSON文件:数据将保存到
data/
目录下的JSON文件中。
常见问题
如遇到运行报错,请参考常见问题文档进行排查。
项目代码结构
项目代码结构说明请参考项目代码结构说明文档。
手机号登录说明
手机号登录相关说明请参考手机号登录说明文档。
参考
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】