【源码】基于Python和Hugging Face的台湾新闻数据处理系统

项目简介

本项目是基于Python和Hugging Face框架构建的台湾新闻数据处理系统。其主要工作是从多个新闻媒体收集台湾新闻数据，完成数据预处理、掩码处理，并生成适用于机器学习任务的数据集。同时，项目配备了模型训练、评估和推理的脚本，可支持文本分类、语言模型训练等自然语言处理任务。

数据收集与预处理
- 能从约10个新闻媒体收集台湾新闻数据。
- 对新闻数据进行掩码处理以生成机器学习任务所需数据集，且支持文档掩码、句子掩码、单词掩码等多种掩码策略。
数据集生成
- 生成的数据集包含新闻ID、标题、内容、记者、时间戳、类别和公司名称等特征。
- 支持生成训练集和测试集，并以pickle格式保存。
模型训练与评估
- 提供训练脚本，可基于GPT模型进行自然语言处理模型训练。
- 提供评估脚本，采用困惑度（perplexity）评估方法。
文本推理
- 提供推理脚本，支持基于模型的文本生成和推理任务。

确保已安装Python 3.x，并安装所需的依赖库： bash pip install -r requirements.txt

将新闻数据集放置在dataset目录下，并确保数据集格式符合项目要求。

运行数据预处理脚本，生成训练集和测试集： bash python script/create_mask_data.py

使用训练脚本进行模型训练： bash python script/train_script.py

使用评估脚本对模型进行评估： bash python script/eval_script.py

使用推理脚本进行文本生成和推理： bash python script/infr_script.py

通过以上步骤，可顺利使用本项目进行台湾新闻数据的处理、模型训练和评估。

点击下载 【提取码: 4003】【解压密码: www.makuang.net】