littlebot
Published on 2025-04-10 / 0 Visits
0

【源码】基于TensorFlow框架的BERT中文细粒度命名实体识别系统

项目简介

本项目借助BERT模型,在CLUENER2020细粒度标签数据集上开展中文命名实体识别(NER)任务。通过微调预训练的BERT模型,实现对中文文本中特定实体的精准识别与分类。

项目的主要特性和功能

  • 多实体识别:可识别地址、书籍、公司等十种实体类型。
  • SBME标记:采用SBME标记方式对实体命名,结合非实体O,共有41个标签值。
  • 模型微调:基于BERT预训练的中文模型微调,以适配CLUENER2020数据集。
  • 结果评估:在验证集计算F1分数评估模型性能,并在测试集进行预测。

安装使用步骤

前提条件

假设用户已下载本项目的源码文件,且已安装tensorflow >= 1.11.0

具体步骤

  1. 创建checkpoint文件夹:下载BERT官方提供的预训练中文模型参数存于该文件夹,下载链接为BERT-Base, Chinese
  2. 创建bert文件夹:存放官方源码,使用命令git clone bert
  3. 修改flags中相关参数
    • data_dir:设为../ner_data_set/cluener_public
    • bert_config_file:设为BERT官方预训练中文模型的chinese_L-12_H-768_A-12/bert_config.json
    • vocab_file:设为chinese_L-12_H-768_A-12/vocab.txt
    • init_checkpoint:设为chinese_L-12_H-768_A-12/bert_model.ckpt(实际为三个文件)。
    • output_dir:指定模型输出checkpoint、eval和predict结果的文件夹位置。
    • do_train,do_eval,do_predict:均设为True
  4. 执行脚本:在命令行执行python test_bert_v2.py
  5. 查看结果:结果将输出至../output_dir/目录下,包含model.ckpttrain.tf_recordeval_result.json等文件。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】