计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (12): 2261-2268.
臧日成,高光来,飞龙
ZANG Richeng,GAO Guanglai ,FEI Long
摘要: 端到端语音翻译技术,旨在实现从源语言到目标语言的自动转换,近年来在多个领域取得了显著进展。然而,在蒙古语的语音翻译方面,效果尚有待提升。其挑战主要源于蒙汉语音翻译数据集的稀缺,现有模型在处理蒙古语语音翻译任务时效果较差。为了克服这些难题,采取了以下措施:首先,收集并构建了一个大规模的蒙汉对照语音翻译数据集,以支持翻译模型的训练。其次,引入联合学习策略,通过编码器和解码器之间的参数共享,促进语音翻译与机器翻译任务之间的知识迁移。此外,为了缩小语音与文本之间的模态差异,采用了交叉注意力正则化方法,以增强模型对不同模态输入的理解和利用。通过知识蒸馏技术,动态更新机器翻译模型,进一步提升了语音翻译模型的性能。最后,集成语音合成模块,实现了从蒙古语语音到汉语语音的翻译。实验结果表明,所提模型在翻译准确率上取得了显著提升,与直接训练的语音翻译模型相比,其BLEU将近提升了2.00。