计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (01): 150-159.
陈欣然1,刘宁1,闫中敏1,刘磊2,崔立真1
CHEN Xinran1,LIU Ning1,YAN Zhongmin1,LIU Lei2,CUI Lizhen1
摘要: 深度学习在医学影像诊断中取得显著成果,基于深度神经网络的模型可以有效辅助医生进行决策。然而,随着模型参数规模逐渐增大,且高质量医学影像数据的标签需要专业医师手工完成,因此大规模参数模型在医疗领域愈发面临数据稀缺的挑战。一种解决方案是引入与医学影像成对的医学报告指导训练,这涉及2种模态的交互,而通用领域的跨模态对齐方法缺乏对细节信息的捕捉,不能完全适用于医疗领域。为解决此问题,提出一种注意力指导的双粒度跨模态医学特征学习框架ADCRL,实现了医学影像和报告在粗粒度和细粒度上的对齐。ADCRL能够提取出医学影像和医学报告2种粒度上的特征,使用注意力指导的模块选择医学任务可能感兴趣的影像区域,并去除噪声区域。通过对比学习式的代理任务实现2个粒度上模态的对齐。ADCRL在无监督范式下训练模型理解2种模态的全局语义和细节语义,并在下游任务中仅使用有限标注数据,即可表现出优秀的性能。主要工作包括提出细粒度特征选择方法和双粒度跨模态特征学习框架,并在公开医疗数据集上预训练并验证了框架的有效性。