项目简介
本项目是基于Python和MMDetection框架构建的多模态目标检测系统,借助RGB图像与红外光图像开展目标检测工作。项目集成了多种数据增强技术、进行网络结构优化并运用预训练模型,实现了高效的目标检测性能。
项目的主要特性和功能
- 多模态数据处理:支持RGB图像和红外光图像双模态输入,通过特定数据增强技术提升模型对不同模态数据的适应性。
- 数据增强技术:包含常规一阶段增强和两阶段增强(带mosaic),增强模型对复杂场景的检测能力。
- 网络结构优化:对Encoder的Attention部分做两种变式(mean和concat),更好地融合双模态特征。
- 预训练模型集成:采用CoDETR - SwinL - 16Epoch - DETR - o365+COCO的预训练权重,且支持基于外部数据训练的预训练模型。
- 模型集成策略:通过不同的数据增强pipeline、网络结构和预训练参数组合生成多种模型并集成,提高检测精度。
安装使用步骤
环境配置
- 确保安装必要依赖包,版本号参考
init.sh
文件。 - 推荐关键包版本如下:
mmcv==2.1.0 mmdet==3.3.0 mmengine==0.10.3 pytorch==2.2.2
数据准备
- 下载并解压公开数据集aistudio和vedai,分别置于
data/aistudio
和data/vedai
目录。 - 运行
python tools/external_data.py
将外部数据处理成COCO标注格式。
预训练模型下载
- 下载CoDETR - SwinL - 16Epoch - DETR - o365+COCO的预训练权重和swin - large backbone的ckpt,放于
ckpt
文件夹。
训练流程
- 运行
bash train.sh
开始训练模型。 - 训练时可通过
PipelineSwitchHook
自动切换数据增强pipeline。
测试流程
运行bash test.sh [input_dir] [data_root] [output_json]
进行测试,生成检测结果。
模型集成
根据需求选择不同的模型组合进行集成,参考README
中的模型集成表格。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】