项目简介
本项目是基于Python的专利文档处理系统,借助结合OCR技术、文档转换和内容提取等手段,实现专利文档的自动化处理与分析,帮助用户快速处理专利文档,确保文档内容符合特定规则,并具备错误检查功能。
项目的主要特性和功能
- 文档转换:支持将Word文档转换为PDF格式,方便后续处理。
- OCR处理:利用OCR技术识别PDF文档里的图像文本,并转换为可编辑文本格式。
- 内容提取:自动提取专利文档中的关键信息,如说明书摘要、权利要求书、说明书、图等。
- 规则验证:依据预定义规则检查文档内容,保证文档格式和内容符合要求。
- 错误检查:自动检测文档中的错误,如连续标点符号、引用错误、部件名称或标号错误,并生成错误日志。
安装使用步骤
环境准备
- 安装Python环境。
- 安装必要的Python库,如
win32com
、pdfplumber
、requests
等。
运行脚本
- 在命令行中导航到项目根目录。
- 运行
run.py
文件以启动Flask web服务。
文档处理
- 上传Word或PDF格式的专利文档。
- 通过
/work/get_data
路由进行文档处理。
查看结果
- 处理完成后,结果将显示在
work.html
模板中。 - 通过
/abs
路由查看提取的信息和错误日志。
注意:项目涉及特定的专利文档处理逻辑,可能需要根据具体环境和需求进行相应调整。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】