项目简介
本项目基于PyTorch实现了Transformer模型,主要用于英文到德文的机器翻译任务。项目选用较小的英文译德文数据集Multi30K进行训练,严格遵循论文中的Transformer模型结构,包含编码器与解码器。
项目的主要特性和功能
- 基本分词:采用基于单词的分词方法,未用BPE分词,提升处理速度。
- Transformer模型结构:实现标准的Transformer模型,有编码器、解码器及多头注意力机制。
- 位置感知前馈网络:在编码器和解码器中加入该网络,增强模型非线性特性。
- 验证策略:提供基于教师机制和不使用教师机制的验证策略,评估模型性能。
- 翻译准确度计算:使用BLEU分数计算翻译准确度。
安装使用步骤
假设用户已下载本项目的源码文件:
1. 安装依赖:确保已安装PyTorch库。
2. 配置超参数:根据需要修改configuration.py
文件中的超参数。
3. 开始训练:运行main.py
脚本,启动模型训练。
4. 可视化训练过程:训练结束后,使用draw.py
脚本可视化训练过程中的损失和BLEU分数。
5. 模型推理:使用训练好的模型进行推理,并在测试数据集上评估模型的翻译性能。
注意:由于使用了较小的数据集,模型在训练多个epoch后可能会出现过拟合现象。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】