项目简介
这是一个用于下载DIY书站(即第一版主)小说内容的爬虫项目。项目运用Python语言,结合PyExecJS执行JavaScript代码、jsdom处理网页内容、Chromium浏览器模拟真人验证等技术,实现了自动化下载和解析小说内容的功能。
项目的主要特性和功能
- 绕过Cloudflare真人验证:借助Chromium浏览器模拟真人点击,突破Cloudflare的安全验证机制,获取网站访问权限。
- JS混淆解密:解析并解密网站中经JS混淆加密的内容,提取小说正文。
- 字体反爬:对网站自定义字体进行反爬处理,将变形字体转换为原始内容。
- 图片文字识别:对以图片形式展示的文字进行OCR识别,并构建映射关系。
- AES加密解密:对网站中的AES加密内容进行解密。
- 多线程下载:采用多线程技术提升下载速度,支持批量下载小说。
安装使用步骤
- 安装依赖:使用pip安装项目所需的Python库,如
execjs
、jsdom
、selenium
等。 - 安装Node.js:确保Node.js环境配置正确,使
execjs
能正常执行JavaScript代码。 - 安装Chromium浏览器:下载并安装Chromium内核的浏览器,如Chrome或Edge,用于模拟真人验证。
- 配置参数:依据
config.py
中的说明,配置必要参数,如浏览器路径、代理设置等。 - 运行爬虫:运行
diyibanzhu.py
脚本,即可开始下载小说。支持手动输入网址下载单个小说,也支持批量下载。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】