项目简介
本项目基于Python爬虫框架搭建,是一个电影信息管理系统。它主要从BT之家爬取高清电影信息,包含两个核心脚本:bt_spider.py
用于爬取电影信息,能将信息保存为CSV文件或存入MySQL数据库;film.py
可实现电影搜索、BT种子下载以及将数据库数据同步到本地CSV文件等功能。
项目的主要特性和功能
- 电影信息爬取:能从BT之家抓取高清电影信息,支持保存为CSV文件或MySQL数据库格式。
- 电影搜索:通过
film.py
脚本,用户可搜索指定电影。 - 种子下载:用户可下载与搜索电影相关的BT种子文件。
- 数据库同步:可将MySQL数据库中的电影数据同步到本地CSV文件。
安装使用步骤
假设用户已下载本项目的源码文件。
1. 环境准备:确保安装了Python环境以及所需的库,如Scrapy、pymysql、requests等。
2. 配置数据库:按以下步骤创建数据库及数据表:
sql
create database bt charset='utf8';
create table films (id int primary key auto_increment,film varchar(250),bt_name varchar(250),bt_url varchar(250));
grant all privileges on bt.* to '授权用户'@'授权主机ip地址' identified by '密码';
3. 运行bt_spider.py
:运行该脚本爬取BT之家的电影信息,可在bt_spider.py
的main
函数中设置保存类型(save_type
可选mysql
或csv
,默认为mysql
)和爬取的最大页数。同时,请根据自身MySQL信息配置数据库连接信息,替换敏感信息。
4. 运行film.py
:使用命令行参数执行不同操作:
- 搜索电影:python3 film.py search '老炮'
- 下载种子:python3 film.py download '变形金刚'
- 同步数据库到CSV:python3 film.py sync_db
注意:使用爬虫时请遵守相关网站的爬虫协议和法律法规。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】