基于卷积注意力机制的双模态音乐流派分类模型MGTN

计算机工程与科学 ›› 2023, Vol. 45 ›› Issue (12): 2226-2236.

基于卷积注意力机制的双模态音乐流派分类模型MGTN

焦佳辉1,2,马思远1,2,宋玉2，宋伟1

(1.郑州大学河南省大数据研究院，河南郑州 450052；2.郑州大学计算机与人工智能学院，河南郑州 450001)

收稿日期:2022-08-12 修回日期:2022-11-14 接受日期:2023-12-25 出版日期:2023-12-25 发布日期:2023-12-14

Bi-modal music genre classification model MGTN based on convolutional attention mechanism

JIAO Jia-hui1,2,MA Si-yuan1,2,SONG Yu2,SONG Wei1

(1.Henan Academy of Big Data,Zhengzhou University,Zhengzhou 450052;
2.School of Computer and Artificial Intelligence,Zhengzhou University,Zhengzhou 450001,China)

Received:2022-08-12 Revised:2022-11-14 Accepted:2023-12-25 Online:2023-12-25 Published:2023-12-14

摘要/Abstract

摘要： 在音乐信息检索(MIR)领域，根据音乐流派进行分类是一项具有挑战性的任务。传统的音频特征工程方法需要手动地选择并提取音乐信号特征进行处理，导致特征提取过程复杂，模型性能不稳定，泛化性差。深度学习与频谱图相结合的方法也有着部分数据不适合模型和全局特征提取困难等问题。提出了一种基于卷积注意力机制的音乐流派分类模型MGTN。MGTN融合了输入频谱图与提取音频信号特征构建音频时序数据2种音乐流派分类方法，使得模型提取特征的能力与泛化性大大提升，提供了音乐流派分类的新思路。在GTZAN与Ballroom数据集上的实验结果表明，MGTN模型能够有效地融合2种不同模态的输入数据。在与数十种基准模型进行的对比中，MGTN模型具备较强的优势。

关键词: 音乐流派分类, Transformer模型, 频谱图, 音频特征工程, 注意力机制

Abstract: In the field of music information retrieval (MIR), classification according to music genres is a challenging task. Traditional audio feature engineering methods requires manually selecting and extracting music signal features for processing, resulting in complex feature extraction process, unstable model performance and poor generalization. The method combining deep learning with spectrogram also has some problems such as unsuitable model for some data and difficulty in global feature extraction. This paper proposes a music genre classification model based on convolutional attention mechanism, called MGTN. MGTN combines two music genre classification methods: input spectrogram and audio signal feature extraction, to construct audio time series data, which greatly improves the model's ability to extract features and generalization, and provides a new idea for music genre classification. Experimental results on GTZAN and Ballroom datasets show that the MGTN model can effectively fuse input data from two different modalities. Compared with dozens of benchmark models, the MGTN model has strong advantages.

Key words: music genre classification, Transformer model, spectrogram, audio feature engineering, attention mechanism

焦佳辉, 马思远, 宋玉, 宋伟. 基于卷积注意力机制的双模态音乐流派分类模型MGTN[J]. 计算机工程与科学, 2023, 45(12): 2226-2236.

JIAO Jia-hui, MA Si-yuan, SONG Yu, SONG Wei. Bi-modal music genre classification model MGTN based on convolutional attention mechanism[J]. Computer Engineering & Science, 2023, 45(12): 2226-2236.

编辑推荐

Metrics

阅读次数

全文

580

HTML			PDF

最新录用	在线预览	正式出版	最新录用	在线预览	正式出版
0	0	0	0	0	580

来源	本网站	其他网站

次数	435	145
比例	75%	25%

摘要

287

最新录用	在线预览	正式出版

0	0	286

	来源	本网站

	次数	287
	比例	100%

[1]	余佳妮, 胡朝霞, 蒋从锋. 一种基于多特征的日志事件异常检测方法研究[J]. 计算机工程与科学, 2024, 46(09): 1587-1597.
[2]	刘国岐, 何廷年, 荣艺煊, 李卓然. 基于用户轨迹和好友关系的兴趣点推荐[J]. 计算机工程与科学, 2024, 46(09): 1693-1701.
[3]	刘晓华, 徐茹枝, 杨成月. 一种基于多特征融合嵌入的中文命名实体识别模型研究[J]. 计算机工程与科学, 2024, 46(08): 1473-1481.
[4]	王泽宇, 徐慧英, 朱信忠, 李琛, 刘子洋, 王子奕. 基于YOLOv8改进的密集行人检测算法：MER-YOLO[J]. 计算机工程与科学, 2024, 46(06): 1050-1062.
[5]	马长林, 孙状. 基于实体知识的远程监督关系抽取[J]. 计算机工程与科学, 2024, 46(05): 945-950.
[6]	曹浩东, 汪海涛, 贺建峰. 融合序列局部信息的日期感知序列推荐算法[J]. 计算机工程与科学, 2024, 46(04): 734-742.
[7]	黄珍伟, 陈伟, 王文杰, 路锦通. 基于改进 RetinaNet网络的水下机器人目标检测与实验[J]. 计算机工程与科学, 2024, 46(02): 264-271.
[8]	王姗姗, 汪梦竹, 骆志刚. 局部判别损失无监督域适应方法[J]. 计算机工程与科学, 2024, 46(01): 132-141.
[9]	梁秀满, 周佳润, 杨若兰. LPD-YOLO：轻量级遮挡行人检测模型[J]. 计算机工程与科学, 2023, 45(12): 2197-2205.
[10]	贾康, 李晓楠, 李冠宇. 一种基于自适应结构感知池化图匹配的图相似度计算模型[J]. 计算机工程与科学, 2023, 45(11): 1999-2007.
[11]	张千锟, 韩虎, 郝俊. 基于双注意力融合知识的方面级情感分类[J]. 计算机工程与科学, 2023, 45(10): 1866-1873.
[12]	尹春勇, 冯梦雪. 基于注意力机制的半监督日志异常检测方法[J]. 计算机工程与科学, 2023, 45(08): 1405-1415.
[13]	余子丞, 凌捷. 基于Transformer和多特征融合的DGA域名检测方法[J]. 计算机工程与科学, 2023, 45(08): 1416-1423.
[14]	吴栋梁, 刘知贵, . 基于轻量化YOLOX的电子元器件缺陷检测方法研究[J]. 计算机工程与科学, 2023, 45(08): 1463-1471.
[15]	王剑, 姜林, 王琳钦, 余正涛, 张松, 高盛祥, . 基于BiLSTM的低资源老挝语文本正则化任务[J]. 计算机工程与科学, 2023, 45(07): 1292-1299.