项目简介
本项目借助中文预训练模型ChineseBert和特定的拼写纠错方法,达成高效的中文拼写错误检测与纠正。项目涵盖两个核心方法,即基于ChineseBert的CSC方法和SepSpell方法,其中ChineseBert方法直接微调预训练模型,SepSpell方法结合探测网络和校正模型,增强了处理连续错误的能力。
项目的主要特性和功能
- ChineseBert方法:对ChineseBert预训练模型微调,无需额外网络结构,直接在CSC训练数据集训练和测试,简化模型架构。
- SepSpell方法:通过探测网络检测可能错误的字符并保留拼音和字形特征,对可能错误的字符掩码处理以降低干扰,专门处理连续拼写错误,提升纠错能力。
- 多数据集支持:支持SIGHAN Bake - off 2013、2014、2015以及Wang271K等官方评测数据集。
- 环境兼容性:支持Python 3.6、PyTorch 1.7.1和transformers 4.6.0等主流环境。
安装使用步骤
环境准备
安装Python 3.6及以上版本、PyTorch 1.7.1和transformers 4.6.0。
数据准备
下载SIGHAN Bake - off 2013、2014、2015和Wang271K等数据集,并放置在项目指定目录。
ChineseBert方法
- 训练:运行
train_finuting_chineseBert.sh
脚本进行模型训练。 - 测试:运行
test_finuting.sh
脚本进行模型测试。
SepSpell方法
- 探测模型训练:运行
train_detection.sh
脚本进行探测模型训练。 - 探测模型测试:运行
test_detection.sh
脚本进行探测模型测试。 - 校正模型训练:运行
train.sh
脚本进行校正模型训练。 - 校正模型测试:运行
test_SepSpell.py
脚本进行校正模型测试。
结果分析
依据测试结果分析模型性能,调整参数优化模型表现。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】