计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (12): 2226-2236.
焦佳辉1,2,马思远1,2,宋玉2,宋伟1
JIAO Jia-hui1,2,MA Si-yuan1,2,SONG Yu2,SONG Wei1
摘要: 在音乐信息检索(MIR)领域,根据音乐流派进行分类是一项具有挑战性的任务。传统的音频特征工程方法需要手动地选择并提取音乐信号特征进行处理,导致特征提取过程复杂,模型性能不稳定,泛化性差。深度学习与频谱图相结合的方法也有着部分数据不适合模型和全局特征提取困难等问题。提出了一种基于卷积注意力机制的音乐流派分类模型MGTN。MGTN融合了输入频谱图与提取音频信号特征构建音频时序数据2种音乐流派分类方法,使得模型提取特征的能力与泛化性大大提升,提供了音乐流派分类的新思路。在GTZAN与Ballroom数据集上的实验结果表明,MGTN模型能够有效地融合2种不同模态的输入数据。在与数十种基准模型进行的对比中,MGTN模型具备较强的优势。