计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (5): 894-901.
杨春苗,王杨,韩力英,孙赫彬
YANG Chunmiao,WANG Yang,HAN Liying,SUN Hebin
摘要: 图像描述旨在根据视觉信息生成符合图像内容的文本,属于跨模态任务。尽管当前图像描述已取得一定成果,但在细粒度情感语义特征捕捉和描述文本情感细腻度等方面仍有提升空间。针对此问题,提出一种基于生成对抗网络生成方面级情感语言描述的模型。以融合双模态注意力机制的编解码结构为生成器、卷积神经网络为判别器,提升模型在跨模态情感匹配方面的准确性及生成情感语句的可靠性。引入迁移学习和RMSProp优化算法以增强模型的可解释性。最终,在MSCOCO与SentiCap数据集上进行了验证,模型收敛性良好并取到了较高的准确率。