首页 | 本学科首页   官方微博 | 高级检索  
     

基于视觉变换网络的音乐流派自动分类
引用本文:董安明,刘宗银,禹继国,韩玉冰,周酉.基于视觉变换网络的音乐流派自动分类[J].计算机应用,2022(S1):54-58.
作者姓名:董安明  刘宗银  禹继国  韩玉冰  周酉
作者单位:1. 齐鲁工业大学大数据研究院;2. 齐鲁工业大学数学与统计学院;3. 齐鲁工业大学计算机科学与技术学院
摘    要:随着网络音乐产业的快速发展,构筑音乐自动检索和分类系统的需求日益增加。利用计算机对音乐流派进行正确标注是实现音乐类型精准分类和保障音乐推荐系统性能的重要前提。针对卷积运算不具备提取全局表征的能力,深度卷积神经网络对音乐流派数据的全局建模能力较弱的问题,提出了一种基于视觉变换(ViT)神经网络的音乐流派自动分类方法。该方法对待分类的音频进行预处理后,利用短时傅里叶变换(STFT)转化为尺寸统一的语谱图切片,实现音乐频域特征的转换。为了避免训练过拟合,通过增加白噪声对语谱图切片集进行数据增强。然后利用所生成的语谱切片集及其增强后的数据集对所构建的ViT神经网络进行训练,从而实现音乐流派风格的自动分类。仿真结果表明,所构建的ViT网络在音乐流派分类公共数据集GTZAN上的测试识别准确率达到91.01%,比基于AlexNet、AlexNet-enhanced和VGG16等传统卷积神经网络(CNN)的音乐流派分类方法提升了1.00~5.00个百分点。

关 键 词:视觉变换网络  音乐流派  特征转换  语谱图  深度学习  数据增强
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号