项目简介
本项目是基于Python的爬虫程序,主要用于爬取博客园(cnblogs)上的技术文章,并把文章内容保存到数据库中。项目由多个具备特定功能的文件协作完成整个爬取过程。
项目的主要特性和功能
- 自动爬取博客园上的文章列表。
- 清洗和整合文章数据,包含图片下载、URL地址替换和CSS样式替换。
- 检测并调整图片大小,保证符合要求。
- 记录爬取过程中的信息,方便调试和监控。
- 将爬取的内容自动插入到数据库中。
- 把本地图片文件上传到线上服务器。
安装使用步骤
前提条件
- 安装Python 3.6及以上版本。
- 通过pip安装所需第三方库:
selenium
、lxml
、pymysql
、paramiko
和PIL
(或Pillow
)。shell pip install selenium lxml pymysql paramiko Pillow
- 确保浏览器已安装并配置好相应的chromedriver。
使用步骤
- 复制或下载项目代码:
shell cd BlogGardenSpider
- 配置文件修改: 根据项目需求修改配置文件(如数据库连接信息、远程服务器信息等)。
- 运行主程序:
shell python blog_spider.py
- 上传图片(可选):
shell python ssh_upload.py
- 更新数据库(可选):
shell python update_mysql.py
注意事项
- 本项目涉及网页爬取,需遵守相关网站的爬虫协议和使用规则。
- 因网站结构可能变化,需定期更新代码以适应。
- 使用
ssh_upload.py
时,要确保已配置好SSH密钥认证。 - 使用
update_mysql.py
时,要确保数据库连接信息正确,且已创建相应的数据库和表格。
版权声明
本项目仅供学习交流使用,请勿用于非法用途。未经许可,不得随意修改或分发本项目代码。版权所有,违者必究。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】