项目简介
本项目是一个基于Python的邮件分类系统,利用TF-IDF方法进行文本特征提取,并通过SVM分类器对邮件进行分类。同时,还提供了SMO分类方法,项目包含数据预处理、特征提取、分类等多个环节。
项目的主要特性和功能
- 特征提取多样化:采用TF-IDF方法,结合词干提取、词形还原、去除停用词等操作,从邮件文本中提取有效特征。
- SVM分类灵活:调用sklearn-learn中的SVM分类,支持多种核函数(如linear、rbf、poly、sigmoid)供用户自主选择。
- 提供SMO分类:实现SMO算法,可查看相应的a、b输出。
- 结果可保存:支持将分类结果保存到指定文本文件中。
安装使用步骤
前提条件
确保已安装Python3.6环境,且已下载本项目的源码文件。
具体步骤
- 安装依赖:在项目根目录下,运行命令
pip install -r requirements.txt
。 - 安装分词处理工具:执行
python install_database.py
。 - 数据预处理:运行
python Emails_classify_Proprocessing.py
,可通过-m
或--method
参数选择stemming
(词干提取)或lemmatization
(词形还原)方法,例如python Emails_classify_Proprocessing.py -m lemmatization
。 - SVM分类:执行
python Emails_classify_svm.py
,可通过-m
或--method
参数选择核函数,通过-f
或--file
参数选择数据集类型,例如python Emails_classify_svm.py -m linear -f lemmatization
。 - SMO算法运行:若要使用SMO算法,运行
python Emails_classify_SMO.py
。 - 结果保存:若需保存分类结果,可使用重定向符号,如
python Emails_classify_svm.py -m linear -f lemmatization > report_linear.txt
。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】