【源码】基于MindSpore框架的小参数量中文Llama2模型项目

项目简介

本项目致力于构建一个小参数量的中文Llama2仓库，包含预训练、推理的完整流程，主要目的是帮助LLM初学者快速入门。

从“Baby - llama2 - chinese Corpus”的百度网盘中下载分词处理后的预训练语料（按需下载，共634亿tokens，文件总大小为118G）。
将下载好的数据放到./data/目录下。
根据下载的语料，修改data_process.py中的data_path_list部分。
运行data_process.py，在./data/目录下生成pretrain_data.bin文件： bash python data_process.py
根据自身算力，修改pretrain.py文件中的模型参数调整模型大小（max_seq_len、dim、n_layers、n_heads），若爆显存可调整batch_size参数。
运行预训练，考虑到预训练运行时间久，采用程序后台运行： bash nohup python pretrain.py > out.log & 运行结束后，预训练模型会保存在out/pretrain文件夹中。
若需要测试训练好的pretrain模型，可运行eval_pretrain.py（可以自定义问题）： bash python eval_pretrain.py

点击下载 【提取码: 4003】【解压密码: www.makuang.net】