littlebot
Published on 2025-04-08 / 0 Visits
0

【源码】基于ChineseBert的中文拼写纠错系统

项目简介

本项目借助中文预训练模型ChineseBert和特定的拼写纠错方法,达成高效的中文拼写错误检测与纠正。项目涵盖两个核心方法,即基于ChineseBert的CSC方法和SepSpell方法,其中ChineseBert方法直接微调预训练模型,SepSpell方法结合探测网络和校正模型,增强了处理连续错误的能力。

项目的主要特性和功能

  1. ChineseBert方法:对ChineseBert预训练模型微调,无需额外网络结构,直接在CSC训练数据集训练和测试,简化模型架构。
  2. SepSpell方法:通过探测网络检测可能错误的字符并保留拼音和字形特征,对可能错误的字符掩码处理以降低干扰,专门处理连续拼写错误,提升纠错能力。
  3. 多数据集支持:支持SIGHAN Bake - off 2013、2014、2015以及Wang271K等官方评测数据集。
  4. 环境兼容性:支持Python 3.6、PyTorch 1.7.1和transformers 4.6.0等主流环境。

安装使用步骤

环境准备

安装Python 3.6及以上版本、PyTorch 1.7.1和transformers 4.6.0。

数据准备

下载SIGHAN Bake - off 2013、2014、2015和Wang271K等数据集,并放置在项目指定目录。

ChineseBert方法

  • 训练:运行train_finuting_chineseBert.sh脚本进行模型训练。
  • 测试:运行test_finuting.sh脚本进行模型测试。

SepSpell方法

  • 探测模型训练:运行train_detection.sh脚本进行探测模型训练。
  • 探测模型测试:运行test_detection.sh脚本进行探测模型测试。
  • 校正模型训练:运行train.sh脚本进行校正模型训练。
  • 校正模型测试:运行test_SepSpell.py脚本进行校正模型测试。

结果分析

依据测试结果分析模型性能,调整参数优化模型表现。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】