littlebot
Published on 2025-04-08 / 0 Visits
0

【源码】基于Python的中文命名实体识别系统

项目简介

本项目是基于Python的中文命名实体识别(Named Entity Recognition, NER)系统,借助多种机器学习模型解决中文文本中的命名实体识别问题。项目运用隐马尔可夫模型(HMM)、条件随机场(CRF)、双向长短期记忆网络(Bi-LSTM)以及Bi-LSTM结合CRF的混合模型,对中文简历数据进行实体识别,数据集采用BIOES标注格式,可识别人名(PER)、地名(LOC)等实体类型。

项目的主要特性和功能

  1. 多模型支持:实现HMM、CRF、Bi-LSTM和Bi-LSTM+CRF四种模型,用户可按需选择模型训练和评估。
  2. 模型训练与评估:提供完整训练和评估流程,用户通过简单命令训练模型,查看精确率、召回率和F1分数。
  3. 数据预处理:包含数据预处理模块,处理BIOES格式数据集,生成训练所需词库映射。
  4. 模型集成:支持集成学习,如投票表决,结合多个模型预测结果提升识别效果。
  5. 混淆矩阵:模型评估时生成混淆矩阵,助用户详细分析模型性能。

安装使用步骤

  1. 安装依赖:确保安装Python 3环境,运行以下命令安装依赖库: bash pip3 install -r requirement.txt
  2. 准备数据集:将BIOES格式数据集放于项目目录下的ResumeNER文件夹。数据集每行含一个字及其对应标注,句子间用空行分隔。
  3. 训练模型:运行以下命令开始训练: bash python3 main.py 训练中模型自动训练和评估,输出精确率、召回率和F1分数等指标。
  4. 评估模型:训练完成后,运行以下命令加载并评估模型: bash python3 test.py
  5. 修改参数:若需调整模型或训练参数,可在./models/config.py文件中修改。
  6. 查看结果:训练和评估结果输出到控制台,保存于output.txt文件,查看该文件了解模型详细表现。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】