【源码】基于自然语言处理的词向量训练系统

项目简介

本项目是基于自然语言处理的词向量训练系统，借助人民日报 2020 年 10 月 04 日至 2021 年 10 月 04 日的文章数据集开展训练工作，生成高质量词向量，并通过相似性和类比测试来验证其有效性。

数据集：采用人民日报特定时间段的文章数据集，有 25590 篇文章、742362 个句子、0.021 亿个词、294730 个词条以及 182004942 对词（窗口大小为 5）。
训练参数：向量维度设为 100，窗口大小为 5，K 值为 5，批量大小 50，训练轮数 10，学习率 0.025。
训练结果：训练时生成损失下降曲线，保存词向量，还能进行词向量可视化和相似性测试。
相似性测试：对“新冠”“人民”“发展”等多个词进行相似词测试。
类比测试：开展如“男--博士, 女--?”等多种类比测试。

点击下载 【提取码: 4003】【解压密码: www.makuang.net】