项目简介
本项目是基于深度学习的信息抽取系统,借助BERT模型与BiLSTM - CRF(双向长短期记忆网络 - 条件随机场)开展实体识别工作。系统可从非结构化文本数据里提取有意义的实体及实体间关系,在自然语言处理领域应用广泛,像文档分类、情感分析、知识图谱构建等场景均可使用。
项目的主要特性和功能
- 实体识别:利用BertBilstmCrf模型识别文本中的人名、地名、公司名等实体。
- 关系抽取:在完成实体识别后,通过模型预测实体间的投资关系、融资关系等。
- 数据处理和预处理:涵盖文本清洗、分词、填充序列等步骤,以适配模型输入要求。
- 模型训练和评估:运用五折交叉验证等方法训练模型,使用F1得分、精确度、召回率等指标评估模型性能。
- 结果输出和处理:将模型预测结果转换为CSV文件或Excel文件等特定格式,便于后续分析处理。
- 阈值调整:通过调整阈值控制实体和关系的预测结果,实现最佳抽取效果。
安装使用步骤
- 项目源码已下载。
- 在项目根目录下新建名为
model
的文件夹。 - 把包含BERT预训练模型的
chinese_L - 12_H - 768_A - 12
文件夹放入model
文件夹中。 - 确保已安装Python环境,并安装TensorFlow、PyTorch等所需依赖库。
- 依据项目文档指引,运行相应Python脚本进行模型训练、评估或预测。
完成以上步骤,即可成功运行本项目进行信息抽取。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】