项目简介
本项目是基于自然语言处理的词向量训练系统,借助人民日报 2020 年 10 月 04 日至 2021 年 10 月 04 日的文章数据集开展训练工作,生成高质量词向量,并通过相似性和类比测试来验证其有效性。
项目的主要特性和功能
- 数据集:采用人民日报特定时间段的文章数据集,有 25590 篇文章、742362 个句子、0.021 亿个词、294730 个词条以及 182004942 对词(窗口大小为 5)。
- 训练参数:向量维度设为 100,窗口大小为 5,K 值为 5,批量大小 50,训练轮数 10,学习率 0.025。
- 训练结果:训练时生成损失下降曲线,保存词向量,还能进行词向量可视化和相似性测试。
- 相似性测试:对“新冠”“人民”“发展”等多个词进行相似词测试。
- 类比测试:开展如“男--博士, 女--?”等多种类比测试。
安装使用步骤
- 因用户已下载本项目的源码文件,此步骤省略。
- 准备数据集:下载并解压人民日报数据集,保证数据集路径正确。
- 配置参数:按需调整训练参数,像向量维度、窗口大小、K 值、批量大小、训练轮数和学习率等。
- 运行训练脚本:执行训练脚本,开始训练词向量。
- 查看结果:训练完成后,查看生成的损失下降曲线、词向量文件、词向量可视化结果以及相似性和类比测试结果。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】