计算机工程与科学 ›› 2025, Vol. 47 ›› Issue (11): 2038-2044.
刘翔,李传坤,郭锦铭,刘宇
LIU Xiang,LI Chuankun,GUO Jinming,LIU Yu#br#
摘要: 针对环境声分类任务中,数据集样本信噪比低、对数梅尔谱(Log-Mel)谱图特征表达能力不足等问题,提出了一种基于高低频分离的环境声分类改进模型。首先在输入特征中增加了相位谱作为Log-Mel谱图的补充,构建相位、Log-Mel和时频谱的多特征参数输入,增强了模型输入特征的表达能力;其次在神经网络的输入部分添加注意力机制,提升网络模型的抗噪声干扰能力并提高了网络的鲁棒性和泛化能力。实验表明,所提模型有效地提升了对环境声的识别准确率,在ESC10,ESC50和UrbanSound8K数据集上的分类准确率达到了97.25%,89.00%和83.45%,与原有的模型相比准确率提升了2.25%,10.50%和2.22%。