littlebot
Published on 2025-04-17 / 2 Visits
0

【源码】基于Python的专利文档处理系统

项目简介

本项目是基于Python的专利文档处理系统,借助结合OCR技术、文档转换和内容提取等手段,实现专利文档的自动化处理与分析,帮助用户快速处理专利文档,确保文档内容符合特定规则,并具备错误检查功能。

项目的主要特性和功能

  1. 文档转换:支持将Word文档转换为PDF格式,方便后续处理。
  2. OCR处理:利用OCR技术识别PDF文档里的图像文本,并转换为可编辑文本格式。
  3. 内容提取:自动提取专利文档中的关键信息,如说明书摘要、权利要求书、说明书、图等。
  4. 规则验证:依据预定义规则检查文档内容,保证文档格式和内容符合要求。
  5. 错误检查:自动检测文档中的错误,如连续标点符号、引用错误、部件名称或标号错误,并生成错误日志。

安装使用步骤

环境准备

  • 安装Python环境。
  • 安装必要的Python库,如win32compdfplumberrequests等。

运行脚本

  • 在命令行中导航到项目根目录。
  • 运行 run.py 文件以启动Flask web服务。

文档处理

  • 上传Word或PDF格式的专利文档。
  • 通过 /work/get_data 路由进行文档处理。

查看结果

  • 处理完成后,结果将显示在 work.html 模板中。
  • 通过 /abs 路由查看提取的信息和错误日志。

注意:项目涉及特定的专利文档处理逻辑,可能需要根据具体环境和需求进行相应调整。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】