【源码】基于ChineseBert的中文拼写纠错系统

项目简介

本项目借助中文预训练模型ChineseBert和特定的拼写纠错方法，达成高效的中文拼写错误检测与纠正。项目涵盖两个核心方法，即基于ChineseBert的CSC方法和SepSpell方法，其中ChineseBert方法直接微调预训练模型，SepSpell方法结合探测网络和校正模型，增强了处理连续错误的能力。

项目的主要特性和功能

ChineseBert方法：对ChineseBert预训练模型微调，无需额外网络结构，直接在CSC训练数据集训练和测试，简化模型架构。
SepSpell方法：通过探测网络检测可能错误的字符并保留拼音和字形特征，对可能错误的字符掩码处理以降低干扰，专门处理连续拼写错误，提升纠错能力。
多数据集支持：支持SIGHAN Bake - off 2013、2014、2015以及Wang271K等官方评测数据集。
环境兼容性：支持Python 3.6、PyTorch 1.7.1和transformers 4.6.0等主流环境。

安装使用步骤

环境准备

安装Python 3.6及以上版本、PyTorch 1.7.1和transformers 4.6.0。

数据准备

下载SIGHAN Bake - off 2013、2014、2015和Wang271K等数据集，并放置在项目指定目录。

ChineseBert方法

训练：运行train_finuting_chineseBert.sh脚本进行模型训练。
测试：运行test_finuting.sh脚本进行模型测试。

SepSpell方法

探测模型训练：运行train_detection.sh脚本进行探测模型训练。
探测模型测试：运行test_detection.sh脚本进行探测模型测试。
校正模型训练：运行train.sh脚本进行校正模型训练。
校正模型测试：运行test_SepSpell.py脚本进行校正模型测试。

结果分析

依据测试结果分析模型性能，调整参数优化模型表现。

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】

Menu

Share

【源码】基于ChineseBert的中文拼写纠错系统

项目简介

项目的主要特性和功能

安装使用步骤

环境准备

数据准备

ChineseBert方法

SepSpell方法

结果分析

下载地址

【源码】基于Python的猫眼电影票房数据分析系统

【源码】基于Python的云运动一键跑步脚本

【源码】基于ROS和MoveIt的双臂机器人控制系统

【源码】基于Arduino的易经随机卦象生成器

【源码】基于Java的超星学习通PDF下载工具

【源码】基于Node.js的B站动态抽奖自动化脚本

【源码】基于Spring Boot和Vue的苍穹外卖管理系统

【源码】基于思源笔记的插件开发示例

【源码】基于Arduino的智能花盆控制系统

【源码】基于ROS框架的UR5机器人视觉伺服仿真系统