项目简介
本项目利用图神经网络(Graph Neural Networks, GNNs),通过监督学习的方式对分子数据进行训练,实现对小分子结构是否对HIV病毒有效的分类预测。
项目的主要特性和功能
- 数据集处理:采用HIV数据集,含40,000多个化合物活性标签,分为活性(CA和CM)和非活性(CI)两类。
- 数据平衡:运用上采样技术处理数据不平衡问题,保证活性与非活性分子比例合理。
- 模型构建:使用基于注意力机制的图卷积层、Topk池化层和全局池化层,结合三层全连接层进行特征提取和预测。
- 超参数优化:采用贝叶斯优化策略(Mango)选择超参数,提升模型性能。
- 评估指标:使用Accuracy、Precision、Recall和F1 - score等指标评估模型性能。
安装使用步骤
环境准备
- 安装RDKit:按照RDKit安装指南进行安装。
- 安装PyTorch Geometric:按照PyTorch Geometric安装指南进行安装,确保CUDA版本和PyTorch版本兼容。
数据准备
下载HIV数据集,确保数据集包含SMILES表示和活性标签。
模型训练
在IDE中执行train.py
脚本,或通过终端运行命令python train.py
。
模型评估
训练完成后,使用train.py
中的验证和测试部分评估模型性能。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】