项目简介
本项目是基于Python语言的深度学习课程设计,借助LightGBM梯度增强框架,对给定数据集依次进行预处理、特征筛选、数据可视化以及模型训练,最终生成预测结果文件,适合机器学习算法初学者学习实践。
项目的主要特性和功能
1. 数据处理与初步分析
- 读取指定路径的训练数据和答案数据。
- 初步分析数据,包含打印数据头部信息、形状及特征唯一值数量统计。
- 用热图展示答案数据的相关性。
2. 特征筛选与处理
- 统计各特征唯一值数量,筛选特征。
- 对筛选特征分组统计并生成柱状图。
- 删除筛选特征用于后续模型训练。
3. 数据可视化
- 展示训练数据特定特征分布,拟合正态分布了解分布情况。
- 绘制偏度和峰度图检测异常值。
- 绘制特征间相关性热图。
- 展示特定特征的值计数和比例分布。
4. 模型训练
- 用LightGBM进行K折交叉验证模型训练。
- 保存每次训练的预测结果和特征重要性等信息。
- 合并多次预测结果并保存为提交文件。
- 用自定义评价函数smape计算预测误差。
安装使用步骤
1. 安装所需库
确保已安装numpy、pandas、matplotlib、seaborn、scipy、lightgbm、tqdm等库,可使用pip或conda等工具安装。
2. 准备源码
下载并解压项目源码文件。
3. 运行项目
运行main.py文件即可开始数据处理、模型训练等流程。默认从"candidate_train.csv"读取训练数据,从"train_answer.csv"读取答案数据,输出的预测结果会保存在指定路径。可按需修改具体路径和文件名,运行中可调整参数(如K折交叉验证的折数)优化模型性能。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】