计算机工程与科学 ›› 2024, Vol. 46 ›› Issue (05): 937-944.
李新洁1,2,王文君1,2,董凌1,2,赖华1,2,余正涛1,2,高盛祥1,2
LI Xin-jie1,2,WANG Wen-jun1,2,DONG Ling1,2,LAI Hua1,2,YU Zheng-tao1,2,GAO Sheng-xiang1,2
摘要: 针对现有方法对老挝语声调变化以及音频多样性考虑不足导致音素分割不准确的问题,提出一种多特征交互融合的老挝语无监督音素分割方法。先对自监督特征、频谱特征以及音高特征进行独立编码,避免单一特征的不足;再基于注意力机制渐进融合多种独立特征,使模型更全面地捕捉老挝语的声调变化和音素边界的信息;最后采用可学习框架优化音素分割模型。实验结果表明,相比基线方法,在老挝语音素分割任务上所提方法的R-value值提升了27.88%。