项目简介
本项目是为2021中国高校计算机大赛 - 微信大数据挑战赛设计的Baseline模型。利用脱敏和采样后的数据信息,通过算法预测用户对微信视频号“热门推荐”中不同视频内容的互动行为(如点赞、点击头像、收藏、转发等)的发生概率,评分标准为多个行为预测结果的加权uAUC值。
项目的主要特性和功能
- 模型架构:采用Wide & Deep模型,结合线性模型和深度神经网络提升预测精度。
- 特征工程:包含用户ID、视频ID、作者ID等DNN特征,以及视频播放时长、设备类型等线性特征。
- 评估指标:运用加权uAUC值评估模型性能,涉及点赞、点击头像、收藏、转发等多个互动行为。
- 数据处理:支持离线和在线训练数据集的生成、特征提取以及模型训练。
安装使用步骤
环境配置
确保安装了Python 3以及以下依赖库: - pandas>=1.0.5 - tensorflow>=1.14.0
数据准备
新建data
目录,下载比赛数据集并解压到data
目录下,生成wechat_algo_data1
目录。
特征/样本生成
运行python comm.py
,自动生成特征和样本,并存储在data
目录下。
模型训练与评估
- 离线模型训练:运行
python baseline.py offline_train
。 - 离线模型评估:运行
python baseline.py evaluate
,生成评估结果文件data/evaluate/submit_${timestamp}.csv
。 - 在线模型训练:运行
python baseline.py online_train
。 - 生成提交文件:运行
python baseline.py submit
,生成提交文件data/submit/submit_${timestamp}.csv
。
模型结果查看
使用evaluation.py
查看模型的评估结果,包括离线和在线阶段的加权uAUC值。
通过以上步骤,可顺利运行本项目,进行用户互动行为的预测和模型性能评估。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】