• 中国计算机学会会刊
  • 中国科技核心期刊
  • 中文核心期刊

计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (11): 2071-2080.

• 人工智能与数据挖掘 • 上一篇    下一篇

双级交互式自适应融合的多模态神经机器翻译

杜连成1,2,郭军军1,2,叶俊杰1,2,余正涛1,2   

  1. (1.昆明理工大学信息工程与自动化学院,云南 昆明 650504;2.云南省人工智能重点实验室,云南 昆明 650500)
  • 收稿日期:2023-09-14 修回日期:2023-12-25 接受日期:2024-11-25 出版日期:2024-11-25 发布日期:2024-11-27
  • 基金资助:
    国家重点研发计划(2020-AAA0107904);国家自然科学基金(61866020);云南省科技厅自然科学基金(202301AT070444);云南省重大科技专项(202103AA080015)

Dual-level interactive adaptive fusion for multimodal neural machine translation

DU Lian-cheng1,2,GUO Jun-jun1,2,YE Jun-jie1,2,YU Zheng-tao1,2   

  1. (1.Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650504;
    2.Key Laboratory of Artificial Intelligence in Yunnan Province,Kunming 650500,China)Abstract:The objective of multimodal neural machine translation (MNMT) is to enhance the quality of pure text-based neural machine translation by incorporating additional modalities.Images encompass various semantic information,including entity relationships,attributes,and spatial positioning.However,most existing fusion methods primarily focus on partial visual information in images,neglecting the exploration of intra-modal relationships,resulting in limited utilization of visual information and the inability to fully exploit the semantic richness within images. This paper proposes a dual-level interactive adaptive fusion multimodal neural machine translation method that considers diverse aspects of visual features to maximize the utilization of visual information.Experimental results demonstrate the effectiveness of the proposed method in harnessing the visual information,showcasing significant improvements over state-of-the-art MNMT methods on the English-to-German (EN→DE) and English-to-French (EN→FR) translation tasks on Multi30K dataset.

  • Received:2023-09-14 Revised:2023-12-25 Accepted:2024-11-25 Online:2024-11-25 Published:2024-11-27

摘要: 多模态神经机器翻译的目标是通过引入其他模态信息来提升纯文本神经机器翻译的质量。图像中包含了实体对象的关系、属性以及空间位置关系等多种语义信息。然而,目前存在的大多数融合方法仅考虑图像的部分视觉信息,忽略了对视觉模态内部关系的探索,导致视觉信息的利用率较低,无法充分利用图像所包含的全部语义信息。因此,提出了一种双级交互式自适应融合的多模态神经机器翻译方法,该方法考虑了图像不同方面的属性特征,以充分利用图像的视觉信息。实验结果显示,该方法能够有效地利用图像所具有的视觉信息,并且在Multi30K数据集的英语→德语(EN→DE)和英语→法语(EN→FR)2种翻译任务的测试上的效果显著优于当前大多数的效果最优(SOTA)多模态神经机器翻译方法的结果,十分具有竞争力。

关键词: 多模态神经机器翻译, 双视觉特征交互, 图-文跨模态自适应融合

Abstract: multimodal neural machine translation;dual visual feature interaction;image-to-text cross-modal adaptive fusion