项目简介
本项目是基于中文预训练模型CPM的文本生成系统,借助GPT2模型开展作文、小说、新闻、古诗等中文生成任务。项目涵盖数据预处理、模型训练、文本生成和HTTP服务等代码模块,致力于提供高效且灵活的中文文本生成解决方案。
项目的主要特性和功能
- 数据预处理:运用滑动窗口技术截断作文数据集,生成适配训练的数据集。
- 模型训练:利用预训练的CPM模型进行微调,训练出可生成高质量中文文本的模型。
- 文本生成:依据用户提供的标题和上下文内容,生成完整文章或段落。
- HTTP服务:将文本生成功能封装为HTTP服务,支持POST和GET请求,便于集成到其他应用。
安装使用步骤
环境准备
- 安装Python 3.6及以上版本。
- 安装
transformers
、torch
等必要的库和框架。
数据准备
准备作文数据集,并按项目要求进行预处理,生成训练数据。
模型训练
运行train.py
脚本进行模型训练,根据实际需求调整训练参数。
文本生成
- 运行
generate.py
脚本进行文本生成。 - 或运行
http_service.py
脚本启动HTTP服务,通过HTTP请求进行文本生成。
注意事项
- 需使用预训练的CPM模型进行微调。
- 根据实际需求调整训练参数和生成参数。
- 可在
generate.py
中设置生成的最大长度、生成温度、top - k和top - p过滤等参数。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】