计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (11): 2056-2066.
王露瑶,胡慧君,刘茂福
WANG Luyao,HU Huijun,LIU Maofu
摘要: 多模态情感分析日益受到广泛关注,其目的是利用文本和图像等多模态信息实现情感预测。相较于文本,视觉模态作为辅助模态,可能包含更多与情感无关的混淆或者冗余信息,同时现有研究未充分考虑多个感知模态间的交互作用和互补性。针对上述问题,提出了基于视觉特征增强与双向交互融合的图文情绪分类VFEBIF模型。其中,细粒度视觉特征增强模块利用场景图的结构化知识和基于CLIP的筛选技术,提取出与视觉语义相关的文本关键词,从而增强视觉局部特征。此外,双向交互融合模块并行实现模态间交互,并融合多模态特征以深入挖掘模态间的互补信息,进而实现情绪分类。在TumEmo和MVSA-Single这2个公共数据集上的实验表明,VFEBIF模型优于多数现有模型,能够有效提升情绪分类性能。