基于视觉变换网络的音乐流派自动分类期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

基于视觉变换网络的音乐流派自动分类

引用本文：	董安明,刘宗银,禹继国,韩玉冰,周酉.基于视觉变换网络的音乐流派自动分类[J].计算机应用,2022(S1):54-58.

作者姓名：	董安明刘宗银禹继国韩玉冰周酉

作者单位：	1. 齐鲁工业大学大数据研究院;2. 齐鲁工业大学数学与统计学院;3. 齐鲁工业大学计算机科学与技术学院

摘要：	随着网络音乐产业的快速发展，构筑音乐自动检索和分类系统的需求日益增加。利用计算机对音乐流派进行正确标注是实现音乐类型精准分类和保障音乐推荐系统性能的重要前提。针对卷积运算不具备提取全局表征的能力，深度卷积神经网络对音乐流派数据的全局建模能力较弱的问题，提出了一种基于视觉变换（ViT）神经网络的音乐流派自动分类方法。该方法对待分类的音频进行预处理后，利用短时傅里叶变换（STFT）转化为尺寸统一的语谱图切片，实现音乐频域特征的转换。为了避免训练过拟合，通过增加白噪声对语谱图切片集进行数据增强。然后利用所生成的语谱切片集及其增强后的数据集对所构建的ViT神经网络进行训练，从而实现音乐流派风格的自动分类。仿真结果表明，所构建的ViT网络在音乐流派分类公共数据集GTZAN上的测试识别准确率达到91.01%，比基于AlexNet、AlexNet-enhanced和VGG16等传统卷积神经网络（CNN）的音乐流派分类方法提升了1.00～5.00个百分点。
关键词：	视觉变换网络音乐流派特征转换语谱图深度学习数据增强

设为首页 | 免责声明 | 关于勤云 | 加入收藏