【源码】基于TensorFlow框架的BERT中文细粒度命名实体识别系统

项目简介

本项目借助BERT模型，在CLUENER2020细粒度标签数据集上开展中文命名实体识别（NER）任务。通过微调预训练的BERT模型，实现对中文文本中特定实体的精准识别与分类。

假设用户已下载本项目的源码文件，且已安装tensorflow >= 1.11.0。

创建checkpoint文件夹：下载BERT官方提供的预训练中文模型参数存于该文件夹，下载链接为BERT-Base, Chinese。
创建bert文件夹：存放官方源码，使用命令git clone bert。
修改flags中相关参数：
- data_dir：设为../ner_data_set/cluener_public。
- bert_config_file：设为BERT官方预训练中文模型的chinese_L-12_H-768_A-12/bert_config.json。
- vocab_file：设为chinese_L-12_H-768_A-12/vocab.txt。
- init_checkpoint：设为chinese_L-12_H-768_A-12/bert_model.ckpt（实际为三个文件）。
- output_dir：指定模型输出checkpoint、eval和predict结果的文件夹位置。
- do_train,do_eval,do_predict：均设为True。
执行脚本：在命令行执行python test_bert_v2.py。
查看结果：结果将输出至../output_dir/目录下，包含model.ckpt、train.tf_record、eval_result.json等文件。

点击下载 【提取码: 4003】【解压密码: www.makuang.net】