项目简介
本项目是基于Python和Hugging Face的BERT模型构建的垃圾邮件分类系统。利用预训练的BERT模型对短信数据进行训练,实现对新短信是否为垃圾邮件的分类判断,项目涵盖数据预处理、模型训练、评估及预测等步骤。
项目的主要特性和功能
- 数据预处理:按指定格式处理短信数据,并转换为模型可接受的输入格式。
- 模型训练:借助预训练的BERT模型对处理后的数据训练,以识别垃圾邮件。
- 模型评估:在验证集上评估模型性能,包含准确率、召回率、精确率和F1分数。
- 模型预测:对新短信进行分类预测,判断是否为垃圾邮件。
安装使用步骤
- 安装依赖库:安装Python及相关库,如pandas、numpy、torch和transformers。
- 下载数据:从Kaggle下载短信垃圾邮件数据集。
- 运行训练脚本:运行
SMSSpamCollection_bert.py
进行模型训练。 - 运行预测脚本:运行
SMSSpamCollection_bert_predict.py
进行模型预测。
注意:运行前需确保已正确安装所有依赖库,且数据集路径设置正确。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】