项目简介
本项目借助BERT模型,在CLUENER2020细粒度标签数据集上开展中文命名实体识别(NER)任务。通过微调预训练的BERT模型,实现对中文文本中特定实体的精准识别与分类。
项目的主要特性和功能
- 多实体识别:可识别地址、书籍、公司等十种实体类型。
- SBME标记:采用SBME标记方式对实体命名,结合非实体O,共有41个标签值。
- 模型微调:基于BERT预训练的中文模型微调,以适配CLUENER2020数据集。
- 结果评估:在验证集计算F1分数评估模型性能,并在测试集进行预测。
安装使用步骤
前提条件
假设用户已下载本项目的源码文件,且已安装tensorflow >= 1.11.0
。
具体步骤
- 创建checkpoint文件夹:下载BERT官方提供的预训练中文模型参数存于该文件夹,下载链接为BERT-Base, Chinese。
- 创建bert文件夹:存放官方源码,使用命令
git clone bert
。 - 修改flags中相关参数:
data_dir
:设为../ner_data_set/cluener_public
。bert_config_file
:设为BERT官方预训练中文模型的chinese_L-12_H-768_A-12/bert_config.json
。vocab_file
:设为chinese_L-12_H-768_A-12/vocab.txt
。init_checkpoint
:设为chinese_L-12_H-768_A-12/bert_model.ckpt
(实际为三个文件)。output_dir
:指定模型输出checkpoint、eval和predict结果的文件夹位置。do_train,do_eval,do_predict
:均设为True
。
- 执行脚本:在命令行执行
python test_bert_v2.py
。 - 查看结果:结果将输出至
../output_dir/
目录下,包含model.ckpt
、train.tf_record
、eval_result.json
等文件。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】