计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (11): 2071-2080.
杜连成1,2,郭军军1,2,叶俊杰1,2,余正涛1,2
DU Lian-cheng1,2,GUO Jun-jun1,2,YE Jun-jie1,2,YU Zheng-tao1,2
摘要: 多模态神经机器翻译的目标是通过引入其他模态信息来提升纯文本神经机器翻译的质量。图像中包含了实体对象的关系、属性以及空间位置关系等多种语义信息。然而,目前存在的大多数融合方法仅考虑图像的部分视觉信息,忽略了对视觉模态内部关系的探索,导致视觉信息的利用率较低,无法充分利用图像所包含的全部语义信息。因此,提出了一种双级交互式自适应融合的多模态神经机器翻译方法,该方法考虑了图像不同方面的属性特征,以充分利用图像的视觉信息。实验结果显示,该方法能够有效地利用图像所具有的视觉信息,并且在Multi30K数据集的英语→德语(EN→DE)和英语→法语(EN→FR)2种翻译任务的测试上的效果显著优于当前大多数的效果最优(SOTA)多模态神经机器翻译方法的结果,十分具有竞争力。