项目简介
本项目基于Python编程语言,致力于解决阿里巴巴和蚂蚁金服提供的口碑商家客流量预测问题。利用2000个商家从2015年7月至2016年10月的销售数据、用户行为数据以及天气和节假日数据,对商家未来14天的客户流量进行预测。
项目的主要特性和功能
- 数据预处理和特征提取
- 数据清洗:处理异常消费,排除开业前7天数据和销量间断前后1天数据。
- 特征生成:包含历史销量、节假日、天气、商家等多种特征。
- 模型训练与融合
- 常规销量预测模型:运用XGBoost和GBDT模型,通过滑窗生成训练样本。
- 双11销量修正模型:针对双11特殊节日进行销量修正预测。
- 模型融合:整合多个模型预测结果得出最终预测。
- 结果输出和评估
- 将预测结果保存为CSV文件。
- 采用提供的评估方法评估预测结果。
- 辅助工具函数:具备日期处理、相关性计算等数据处理和特征提取辅助函数。
安装使用步骤
环境准备
确保已安装Python及其必要库,如pandas、numpy、matplotlib、xgboost等。
数据准备
下载并提供数据文件,涵盖原始数据、外部数据(如天气、节假日信息)及处理后的数据。
运行代码
按文件路径和文件名运行各Python脚本,依次进行数据处理、特征提取、模型训练和结果输出:
1. 运行data_new/table_regenerate.py
生成精简版user_pay和user_view表格。
2. 运行additional/Weather_underground_day.py
和additional/Weather_underground_hour.py
爬取天气数据。
3. 运行feature/WEATHER_FEATURES.py
、feature/SHOP_FEATURES.py
和feature/TEST_SELLS.py
生成特征表。
4. 运行feature/FEATURE_MERGE.py
整合所有特征。
5. 运行model/xgb_model1.py
、model/xgb_model2.py
、model/GBDT_model.py
和model/correlation_model.py
进行常规销量模型训练。
6. 运行model/DOU11_model.py
进行双11修正系数训练。
7. 运行model/model_blend.py
进行模型融合并生成最终提交结果。
结果评估
使用提供的评估方法或自定义方法,对预测结果进行评估和验证。
注:因项目数据量较大,完成整个流程需一定计算资源和时间。外部数据(如天气和节假日信息)需按提供的爬取或获取方式获取。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】