littlebot

Published on 2025-04-03 / 1 Visits

0

【源码】基于PythonPyExecJSjsdomChromium的DIY书站爬虫

项目简介

这是一个用于下载DIY书站（即第一版主）小说内容的爬虫项目。项目运用Python语言，结合PyExecJS执行JavaScript代码、jsdom处理网页内容、Chromium浏览器模拟真人验证等技术，实现了自动化下载和解析小说内容的功能。

项目的主要特性和功能

绕过Cloudflare真人验证：借助Chromium浏览器模拟真人点击，突破Cloudflare的安全验证机制，获取网站访问权限。
JS混淆解密：解析并解密网站中经JS混淆加密的内容，提取小说正文。
字体反爬：对网站自定义字体进行反爬处理，将变形字体转换为原始内容。
图片文字识别：对以图片形式展示的文字进行OCR识别，并构建映射关系。
AES加密解密：对网站中的AES加密内容进行解密。
多线程下载：采用多线程技术提升下载速度，支持批量下载小说。

安装使用步骤

安装依赖：使用pip安装项目所需的Python库，如execjs、jsdom、selenium等。
安装Node.js：确保Node.js环境配置正确，使execjs能正常执行JavaScript代码。
安装Chromium浏览器：下载并安装Chromium内核的浏览器，如Chrome或Edge，用于模拟真人验证。
配置参数：依据config.py中的说明，配置必要参数，如浏览器路径、代理设置等。
运行爬虫：运行diyibanzhu.py脚本，即可开始下载小说。支持手动输入网址下载单个小说，也支持批量下载。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】