计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (4): 751-760.
• 人工智能与数据挖掘 • 上一篇
田永红,章钧津,宋哲煜
TIAN Yonghong,ZHANG Junjin,SONG Zheyu
摘要: 神经机器翻译作为机器翻译的主流方法在一般翻译任务中取得了较好的表现。然而其翻译质量依赖于大规模平行语料库,对于低资源语言,语料不足成为其发展面临的重要挑战。数据增强技术的出现能够有效解决数据稀缺问题,因此,通过将噪声数据引入反向翻译的方法进行数据增强构造伪平行语料库。首先对文本进行语料预处理,其次进行反向翻译和结合噪声数据后的反向翻译,再次进行文本相似度匹配,最后将反向翻译技术与结合噪声数据后的反向翻译技术进行对比。在实验数据集上的实验结果表明,结合噪声数据后的反向翻译技术有效提升了低资源机器翻译的表现,其翻译结果在BLEU指标上较仅使用反向翻译技术的提升了1.10%,较未使用反向翻译技术的提升了1.96%。