项目简介
本项目聚焦于医学影像领域的自然语言处理(NLP),是中国人工智能学会举办比赛的相关项目。核心功能是根据医生对CT影像的文本描述,自动生成对应的诊断报告文本。
项目的主要特性和功能
- 数据脱敏处理:对脱敏的原始数据,采用不分词策略将原始文本作为模型输入,避免分词歧义。
- 动态掩码策略:选用Span Mask策略,提升模型在验证集上的性能。
- 预训练与微调:运用对抗训练进行预训练,再通过多任务微调缓解模型过拟合问题。
- 正则化技术:采用EMA和权重衰减等正则化方法,增强模型泛化能力。
- 评估指标:通过计算CIDEr评分评估生成报告与参考报告的相似性。
安装使用步骤
1. 环境准备
确保安装Python、PyTorch和Hugging Face的Transformers库。
2. 数据准备
准备好脱敏后的医学影像描述文本数据以及对应的诊断报告数据。
3. 代码运行
- 预训练:在train文件夹下运行
pretrain.py
。 - 微调:在fune文件夹运行相关微调脚本。
- 评估:运行
evaluate.py
计算CIDEr评分。
注意事项
- 根据实际情况调整命令行参数,如数据路径、模型参数等。
- 运行模型前,确保数据已正确预处理和划分。
- 训练时,按需调整学习率、批量大小等参数以优化训练效果。
- 训练完成后,用生成的模型生成诊断报告并评估报告质量。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】