张冬妍,张榄翔,吴晨旭,王立范,兰诚英,丁 昕, 岳 琪
ZHANG Dongyan , ZHANG Lanxiang , WU Chenxu, WANG Lifan ,LAN Chengying ,DING Xin1,YUE Qi
摘要: 为解决中医肾病诊治中因数据模态单一、病例症状相似而导致的诊断错误的问题,提出了一种基于CLIP模型和多模态数据融合的中医肾病诊断模型MLC-CLIP。该模型在CLIP框架基础上进行了系统性改进:引入ResNet50增强局部特征和层次化信息提取能力,设计多尺度特征提取模块强化CLIP图像编码器的特征提取能力;采用LSTM提升对中医病例文本的语义理解,优化文本编码结构;设计加权特征融合模块和跨模态门控注意力特征融合模块,结合分步融合策略优化多模态特征融合。在黑龙江省中医药科学院的肾病数据集上的实验表明,该模型在多模态肾病分类任务上,Accuracy、Precision、Recall、F1分数的结果为94.94%、95.07%、94.89%和94.98%,与原始CLIP模型相比,各项指标分别提升了10.68%、9.31%、9.58%和9.45%。实验结果证实,该模型能有效整合舌象图像和病例文本的多模态信息,在处理症状相似的复杂病例时表现出更强的区分能力,为中医肾病诊断提供了可靠的辅助决策支持。