littlebot
Published on 2025-04-03 / 1 Visits
0

【源码】基于PythonPyExecJSjsdomChromium的DIY书站爬虫

项目简介

这是一个用于下载DIY书站(即第一版主)小说内容的爬虫项目。项目运用Python语言,结合PyExecJS执行JavaScript代码、jsdom处理网页内容、Chromium浏览器模拟真人验证等技术,实现了自动化下载和解析小说内容的功能。

项目的主要特性和功能

  1. 绕过Cloudflare真人验证:借助Chromium浏览器模拟真人点击,突破Cloudflare的安全验证机制,获取网站访问权限。
  2. JS混淆解密:解析并解密网站中经JS混淆加密的内容,提取小说正文。
  3. 字体反爬:对网站自定义字体进行反爬处理,将变形字体转换为原始内容。
  4. 图片文字识别:对以图片形式展示的文字进行OCR识别,并构建映射关系。
  5. AES加密解密:对网站中的AES加密内容进行解密。
  6. 多线程下载:采用多线程技术提升下载速度,支持批量下载小说。

安装使用步骤

  1. 安装依赖:使用pip安装项目所需的Python库,如execjsjsdomselenium等。
  2. 安装Node.js:确保Node.js环境配置正确,使execjs能正常执行JavaScript代码。
  3. 安装Chromium浏览器:下载并安装Chromium内核的浏览器,如Chrome或Edge,用于模拟真人验证。
  4. 配置参数:依据config.py中的说明,配置必要参数,如浏览器路径、代理设置等。
  5. 运行爬虫:运行diyibanzhu.py脚本,即可开始下载小说。支持手动输入网址下载单个小说,也支持批量下载。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】