项目简介
本项目是基于Python的中文命名实体识别(Named Entity Recognition, NER)系统,借助多种机器学习模型解决中文文本中的命名实体识别问题。项目运用隐马尔可夫模型(HMM)、条件随机场(CRF)、双向长短期记忆网络(Bi-LSTM)以及Bi-LSTM结合CRF的混合模型,对中文简历数据进行实体识别,数据集采用BIOES标注格式,可识别人名(PER)、地名(LOC)等实体类型。
项目的主要特性和功能
- 多模型支持:实现HMM、CRF、Bi-LSTM和Bi-LSTM+CRF四种模型,用户可按需选择模型训练和评估。
- 模型训练与评估:提供完整训练和评估流程,用户通过简单命令训练模型,查看精确率、召回率和F1分数。
- 数据预处理:包含数据预处理模块,处理BIOES格式数据集,生成训练所需词库映射。
- 模型集成:支持集成学习,如投票表决,结合多个模型预测结果提升识别效果。
- 混淆矩阵:模型评估时生成混淆矩阵,助用户详细分析模型性能。
安装使用步骤
- 安装依赖:确保安装Python 3环境,运行以下命令安装依赖库:
bash pip3 install -r requirement.txt
- 准备数据集:将BIOES格式数据集放于项目目录下的
ResumeNER
文件夹。数据集每行含一个字及其对应标注,句子间用空行分隔。 - 训练模型:运行以下命令开始训练:
bash python3 main.py
训练中模型自动训练和评估,输出精确率、召回率和F1分数等指标。 - 评估模型:训练完成后,运行以下命令加载并评估模型:
bash python3 test.py
- 修改参数:若需调整模型或训练参数,可在
./models/config.py
文件中修改。 - 查看结果:训练和评估结果输出到控制台,保存于
output.txt
文件,查看该文件了解模型详细表现。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】