计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (06): 1114-1120.
尕藏才让1,2,高定国1,2,仁青东主1
GAZANG Cairang1,2,GAO Dingguo1,2 ,RENQING Dongzhu1
摘要: 藏语方言众多,内部差异显著,因此藏语方言自动辨识研究在语言学、语音信息处理和刑事侦查与公共安全等领域均具有重要价值。目前,藏语方言辨识的常用方法依赖于各种声学特征和基于大数据的深度学习模型。然而,传统声学特征不能充分表示藏语各方言之间的细微差别,深度学习在小规模数据集上难以实现高精度的方言识别。为解决这一问题,提出了一种融合多种特征的藏语方言自动辨识方法。该方法结合梅尔频率倒谱系数(MFCC)、伽马通频率倒谱系数(GFCC)以及包含清浊音信息的短时能量(STE)值,形成一个多信息融合的方言辨识特征,采用双向长短期记忆(Bi-LSTM)网络对卫藏、安多和康巴等主要藏语方言进行了识别。实验结果表明,提出的多特征融合方法相对于采用单一特征的MFCC,GFCC和STE方法分别提高了10.73%、10.78%和59.48%的辩识准确率,最终达到94.89%的辨识准确率,有效地验证了所提方法的有效性和实用性。