项目简介
本项目源于系统认证风险预测竞赛(https://www.datafountain.cn/competitions/537),依据用户认证行为数据和风险异常标记,构建用户认证行为特征模型与风险异常评估模型,以此判断当前用户认证行为是否存在风险。
项目的主要特性和功能
- 全面的数据预处理:处理原始数据的18个特征,去除无学习价值特征,对离散特征编码转换,生成31个新特征,进行z - score标准化处理,消除数据量纲和离群数据影响。
- 特征衍生与筛选:参考RFM分析方法衍生特征,提取账户操作和交易关键特征。通过WOE和IV评估特征重要性,结合相关性分析筛选有效特征。
- 多种模型训练:采用经典监督学习模型(逻辑回归、支持向量机、XGBoost)和UEBA方法(一类支持向量机、局部异常因子、孤立森林)训练,满足不同异常检测需求。
- 集成学习策略:为不同个体学习器设定权值,对正常和异常行为分别预测并加权求和,得出最终预测结果。
- 参赛成绩评估:使用ROC曲线下面积AUC作为评价指标,在A榜和B榜取得一定成绩。
安装使用步骤
假设用户已下载本项目的源码文件,按以下步骤操作:
1. 环境准备:确保安装Python 3.8环境,安装pandas、numpy、sklearn、pickle等必要库。
2. 数据准备:将下载的数据解压缩到项目路径下的对应文件夹。
3. 模型训练:
- 逻辑回归:运行 models\LR_train.py
脚本。
- 支持向量机:运行 models\SVM_train.py
脚本。
- XGBoost:运行 models\XGB_train.py
脚本。
- 一类支持向量机:运行 models\OneClassSVM.py
脚本。
- 局部异常因子:运行 models\LocalOutlierFactor.py
脚本。
- 孤立森林:运行 models\IsolationForest.py
脚本。
4. 模型预测:运行 models\predict.py
脚本,使用训练好的模型对新数据进行预测,结果保存为CSV文件。
5. 结果分析:根据预测结果和AUC值评估模型性能,按需调整参数或尝试其他模型优化。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】