项目简介
该项目借助Ngram模型与Perplexity(PPL)指标达成中文文本的简单纠错。主要运用Ngram语言模型来预测文本中字符替换后的概率提升情况,进而实现文本纠错。此项目适合用于学习Ngram模型的计算和PPL评价指标的应用。
项目的主要特性和功能
- Ngram模型实现:通过训练语料库构建Ngram语言模型,以此预测文本中字符替换后的概率。
- PPL指标应用:利用Perplexity指标评估替换字符后句子的概率提升,从而决定是否进行纠错。
- 同音字替换:引入同音字字典,辅助纠正常见的同音错别字。
- 阈值控制:设定阈值,仅当替换字符后句子的概率提升超过该阈值时,才进行替换,以此控制纠错精度。
安装使用步骤
假设用户已经下载了本项目的源码文件。
1. 运行代码:
bash
python ./correct.py
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】