项目简介
本项目是基于Python和Hugging Face框架构建的台湾新闻数据处理系统。其主要工作是从多个新闻媒体收集台湾新闻数据,完成数据预处理、掩码处理,并生成适用于机器学习任务的数据集。同时,项目配备了模型训练、评估和推理的脚本,可支持文本分类、语言模型训练等自然语言处理任务。
项目的主要特性和功能
- 数据收集与预处理
- 能从约10个新闻媒体收集台湾新闻数据。
- 对新闻数据进行掩码处理以生成机器学习任务所需数据集,且支持文档掩码、句子掩码、单词掩码等多种掩码策略。
- 数据集生成
- 生成的数据集包含新闻ID、标题、内容、记者、时间戳、类别和公司名称等特征。
- 支持生成训练集和测试集,并以pickle格式保存。
- 模型训练与评估
- 提供训练脚本,可基于GPT模型进行自然语言处理模型训练。
- 提供评估脚本,采用困惑度(perplexity)评估方法。
- 文本推理
- 提供推理脚本,支持基于模型的文本生成和推理任务。
安装使用步骤
1. 环境准备
确保已安装Python 3.x,并安装所需的依赖库:
bash
pip install -r requirements.txt
2. 数据集准备
将新闻数据集放置在dataset
目录下,并确保数据集格式符合项目要求。
3. 数据预处理
运行数据预处理脚本,生成训练集和测试集:
bash
python script/create_mask_data.py
4. 模型训练
使用训练脚本进行模型训练:
bash
python script/train_script.py
5. 模型评估
使用评估脚本对模型进行评估:
bash
python script/eval_script.py
6. 文本推理
使用推理脚本进行文本生成和推理:
bash
python script/infr_script.py
通过以上步骤,可顺利使用本项目进行台湾新闻数据的处理、模型训练和评估。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】