项目简介
该项目主要实现电影评论文本的情感分类。借助机器学习技术,模型能从大规模标注文本中学习判断指定文本的情感极性,分为正面和负面。项目所用数据集已划分为训练集和测试集,包含正面和负面的电影评论。
项目的主要特性和功能
- 数据预处理:对原始数据进行初步处理,涵盖文本清洗、转换和分割。
- 模型训练与比较:运用三种预训练模型(bert-large-cased、xlnet-large-cased和roberta-large)对处理后的数据进行训练,并对比效果。
- 模型优化:通过不同的数据处理方式,进一步提升roberta-large模型的表现。
- 评估指标:使用准确率和F1分数评估模型在测试集上的性能。
安装使用步骤
假设用户已下载本项目的源码文件。
1. 环境准备:确保已安装Python环境以及必要的库,如pandas、simpletransformers和sklearn。
2. 数据准备:按照项目目录结构,将训练集和测试集放置到正确位置。
3. 数据预处理:运行data_prep.py
脚本进行数据的初步处理。
4. 模型比较:运行model_comparison.py
脚本对比不同模型的性能。
5. 查看结果(可选):运行final_results.py
脚本查看最佳模型在测试集上的表现。
6. 模型训练与评估(可选):运行roberta.py
脚本进行模型的训练和评估,包括二分类和多分类的测试和比较。
用户需根据自身环境和需求进行相应的配置和调整。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】