计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (09): 1625-1634.
梅运红1,2,刘茂福1,2
MEI Yun-hong1,2,LIU Mao-fu1,2
摘要: 传统的图像描述生成方法由于缺少现实世界的先验知识,生成的描述文本不具有解释性,同时在某些专业领域生成的描述文本准确性不高。针对上述问题,提出了军事新闻图集描述生成任务,还构建了军事新闻图集数据集。该任务存在2个关键挑战:描述信息来源于整个图集和对应的新闻文本中,模型学习到的语义不够充分。进一步提出了一种基于图文关联与上下文引导的军事新闻图集描述生成方法ITRCG。基于ITRCG实现跨模态信息交互,引导模型学习更完整的语义,并通过标签清理辅助命名实体生成。在构建的军事新闻图集数据集上进行了验证实验,结果表明ITRCG能够有效提高描述文本的质量,在各项评价指标上均取得了提升。