首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 653 毫秒
1.
随着网络音乐产业的快速发展,构筑音乐自动检索和分类系统的需求日益增加。利用计算机对音乐流派进行正确标注是实现音乐类型精准分类和保障音乐推荐系统性能的重要前提。针对卷积运算不具备提取全局表征的能力,深度卷积神经网络对音乐流派数据的全局建模能力较弱的问题,提出了一种基于视觉变换(ViT)神经网络的音乐流派自动分类方法。该方法对待分类的音频进行预处理后,利用短时傅里叶变换(STFT)转化为尺寸统一的语谱图切片,实现音乐频域特征的转换。为了避免训练过拟合,通过增加白噪声对语谱图切片集进行数据增强。然后利用所生成的语谱切片集及其增强后的数据集对所构建的ViT神经网络进行训练,从而实现音乐流派风格的自动分类。仿真结果表明,所构建的ViT网络在音乐流派分类公共数据集GTZAN上的测试识别准确率达到91.01%,比基于AlexNet、AlexNet-enhanced和VGG16等传统卷积神经网络(CNN)的音乐流派分类方法提升了1.00~5.00个百分点。  相似文献   

2.
针对机器学习模型对音乐流派特征识别能力较弱的问题,提出了一种基于深度卷积神经网络的音乐流派识别(DCNN-MGR)模型。该模型首先通过快速傅里叶变换提取音频信息,生成可以输入DCNN的频谱并切割生成频谱切片。然后通过融合带泄露整流(Leaky ReLU)函数、双曲正切(Tanh)函数和Softplus分类器对AlexNet进行增强。其次将生成的频谱切片输入增强的AlexNet进行多批次的训练与验证,提取并学习音乐特征,得到可以有效分辨音乐特征的网络模型。最后使用输出模型进行音乐流派识别测试。实验结果表明,增强的AlexNet在音乐特征识别准确率和网络收敛效果上明显优于AlexNet及其他常用的DCNN、DCNN-MGR模型在音乐流派识别准确率上比其他机器学习模型提升了4%~20%。  相似文献   

3.
针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅尔频谱图作为CNNBLS的输入,同时将指数线性单元函数(ELU)融合进CNNBLS的卷积层,以增强其分类精度.相较于其他机器学习网络框架, CNNBLS能用少量的训练时间获得较高的分类精度.此外, CNNBLS可以对增量数据进行快速学习.实验结果表明:无增量模型CNNBLS在训练400首音乐数据可获得90.06%的分类准确率,增量模型Incremental-CNNBLS在增加400首训练数据后可达91.53%的分类准确率.  相似文献   

4.
针对传统句子分类模型存在特征提取过程复杂且分类准确率较低等不足,利用当下流行的基于深度学习模型的卷积神经网络在特征提取上的优势,结合传统句子分类方法提出一种基于卷积神经网络和贝叶斯分类器的句子分类模型。该模型首先利用卷积神经网络提取文本特征,其次利用主成分分析法对文本特征进行降维,最后利用贝叶斯分类器进行句子分类。实验结果表明在康奈尔大学公开的影评数据集和斯坦福大学情感分类数据集上,所提出的方法优于只使用深度学习的模型或传统句子分类模型。  相似文献   

5.
基于自注意力机制时频谱同源特征融合的鸟鸣声分类   总被引:1,自引:0,他引:1  
目前深度学习模型大都难以应对复杂背景噪声下的鸟鸣声分类问题。考虑到鸟鸣声具有时域连续性、频域高低性特点,提出了一种利用同源谱图特征进行融合的模型用于复杂背景噪声下的鸟鸣声分类。首先,使用卷积神经网络(CNN)提取鸟鸣声梅尔时频谱特征;然后,使用特定的卷积以及下采样操作,将同一梅尔时频谱特征的时域和频域维度分别压缩至1,得到仅包含鸟鸣声高低特性的频域特征以及连续特性的时域特征。基于上述提取频域以及时域特征的操作,在时域和频域维度上同时对梅尔时频谱特征进行提取,得到具有连续性以及高低特性的时频域特征。然后,将自注意力机制分别用于得到的时域、频域、时频域特征以加强其各自拥有的特性。最后,将这三类同源谱图特征决策融合后的结果用于鸟鸣声分类。所提模型用于Xeno-canto网站的8种鸟类音频分类,并在分类对比实验中取得了平均精确率(MAP)为0.939的较好结果。实验结果表明该模型能应对复杂背景噪声下的鸟鸣声分类效果较差的问题。  相似文献   

6.
现有的语音情感识别(SER)模型存在训练参数量大、模型泛化性能差、情感识别准确率低等问题,利用有限的语音情感数据建立一个轻量级的模型以提高识别效率和准确率尤为重要。提出一种轻量级端到端多任务学习的P-CNN+Gender深度模型,该模型由语音特征组合网络、负责情感特征和性别特征提取的主体卷积网络以及情感和性别分类器组成。以语音的梅尔频率倒谱系数(MFCC)特征作为输入,特征组合网络使用多个大小不同的卷积核从MFCC特征中平行提取特征再进行组合,供后续的主体卷积网络进行情感特征和性别特征的提取。考虑到情感表达和性别的相关性,将性别分类作为辅助任务融合到情感分类中以提高模型的情感分类性能。实验结果表明,该模型在IEMOCAP、Emo-DB和CASIA语音情感数据集上的类别分类准确率分别达到73.3%、96.4%和93.9%,较P-CNN模型分别提高3.0、5.8和6.5个百分点,与3D-ACRNN、CNNBiRNN等模型相比,其训练参数量仅为其他模型的1/10~1/2,且处理速度更快、准确率更高。  相似文献   

7.
针对目前人脸表情识别准确率不高、网络模型参数复杂等问题,提出一种增强可分离卷积通道特征的人脸表情识别研究方法。设计了一种轻量型卷积神经网络结构提取表情特征,在卷积层中采用深度可分离卷积减少网络参数;引入了压缩激发模块,对不同通道的特征进行权重分配,在不同的卷积层采用不同的压缩率来增强网络对人脸表情的特征提取能力;将提取到的特征送入分类器实现人脸表情分类,在CK+和FER2013数据集上进行实验并分析。实验结果表明:与现有方法相比,提出的网络结构在CK+和FER2013数据集上,识别率分别提高了0.15个百分点和3.29个百分点,且网络模型参数量降低了75%。所提方法在降低网络参数的同时,提高了表情识别准确率。  相似文献   

8.
对样本所含信息的提取能力决定网络模型进行小样本分类的效果,为了进一步提高模型挖掘信息的能力,提出一种结合多尺度特征与掩码图网络的小样本学习方法。设计由1×1卷积、全局平均池化和跳跃连接组成的最小残差神经网络块,与卷积块拼接成特征提取器,以提取样本不同尺度的特征,并通过注意力机制将不同尺度特征融合;使用融合的多尺度特征构建包含结点与边特征的图神经网络,并在其中加入一个元学习器(meta-learner)用于生成边的掩码,通过筛选边特征来指导图结点聚类与更新,进一步强化样本特征;通过特征贡献度和互斥损失改进类在嵌入空间表达特征的求解过程,提升模型度量学习能力。在MiniImagenet数据集上,该方法 1-shot准确率为61.4%,5-shot准确率为78.6%,分别超过传统度量学习方法 12.0个百分点与10.4个百分点;在Cifar-100数据集上分别提升9.7个百分点和6.0个百分点。该方法有效提升了小样本学习场景下的模型分类准确率。  相似文献   

9.
针对传统音频分类模型提取音频特征的过程繁琐,以及现有神经网络模型存在过拟合、分类精度不高、梯度消失等问题,提出一种基于改进Inception网络的语音分类模型。首先,在模型中加入ResNet中的残差跳连思想以改进传统的InceptionV2模型,使网络模型在加深的同时避免梯度消失;其次,优化Inception模块中的卷积核大小,并利用不同尺寸卷积对原始语音的Log-Mel谱图进行深度特征提取,使模型通过自主学习的方式选择合适的卷积处理数据;同时,在深度与宽度两个维度改进模型以提高分类精度;最后,利用训练好的网络模型对语音数据进行分类预测,并通过Softmax函数得到分类结果。在清华大学汉语语音数据集THCHS-30与环境声音数据集UrbanSound8K数据集上的实验结果表明,改进的Inception网络模型在上述两个数据集上分类准确率分别为92.76%与93.34%。相较于VGG16、InceptionV2、GoogLeNet等模型,所提模型的分类准确率取得了最优,最多提高了27.30个百分点。所提模型具有更强的特征融合能力和更准确的分类结果,能够解决过拟合、梯度消失等问题。  相似文献   

10.
针对已有的鼾声分类模型因未考虑实际睡眠时的其他声音而导致的泛化能力差、准确率较低等问题,提出一种基于注意力机制的NewVGG16双向门控循环单元(NVGG16-BiGRU-Att)算法用于鼾声识别。首先,生成每个声段的谱图,采用NVGG16网络提取语谱图、梅尔(Mel)时频图和恒Q变换(CQT)时频图组成的谱图特征矩阵;其次,将提取的特征向量输入BiGRU,结合注意力机制,增加分类过程中的重要特征信息的权重,改善分类效果;最后,经过全连接层输出鼾声与非鼾声。在采集的鼾声数据集上进行实验,实验结果表明,所提算法取得了较好的分类效果,其中Mel时频图效果最优,识别准确率达到96.18%;相较于卷积神经网络(CNN)+长短期记忆(LSTM)网络、卷积CNNsLSTMs-深度神经网络(DNNs)模型,在同特征输入下,所提算法的准确率提升了0.31%~2.39%,验证了所提算法具有较好的鲁棒性,能够提升分类性能。  相似文献   

11.
The genre is an abstract feature, but still, it is considered to be one of the important characteristics of music. Genre recognition forms an essential component for a large number of commercial music applications. Most of the existing music genre recognition algorithms are based on manual feature extraction techniques. These extracted features are used to develop a classifier model to identify the genre. However, in many cases, it has been observed that a set of features giving excellent accuracy fails to explain the underlying typical characteristics of music genres. It has also been observed that some of the features provide a satisfactory level of performance on a particular dataset but fail to provide similar performance on other datasets. Hence, each dataset mostly requires manual selection of appropriate acoustic features to achieve an adequate level of performance on it. In this paper, we propose a genre recognition algorithm that uses almost no handcrafted features. The convolutional recurrent neural network‐based model proposed in this study is trained on melspectrogram extracted from 3‐s duration audio clips taken from GTZAN dataset. The proposed model provides an accuracy of 85.36% on 10‐class genre classification. The same model has been trained and tested on 10 genres of MagnaTagATune dataset having 18,476 clips of 29‐s duration. The model has yielded an accuracy of 86.06%. The experimental results suggest that the proposed architecture with melspectrogram as input feature is capable of providing consistent performances across the different datasets  相似文献   

12.
13.
利用BERT预训练模型的优势,将句法特征与BERT词嵌入模型融入到深度学习网络中,实现细粒度的商品评价分析。提出一种基于深度学习的两阶段细粒度商品评价情感分析模型,利用融合句法特征与BERT词嵌入的BILSTM-CRF注意力机制模型提取用户评论中的商品实体、属性与情感词;运用BILSTM模型对提取的结果进行情感分析。在SemEval-2016 Task 5和COAE Task3商品评价数据集上的特征提取F1值达到88.2%,分别高出BILSTM模型、BILSTM-CRF模型4.8个百分点、2.3个百分点;情感分类精度达到88.5%,比普通的RNN高出8个百分点,比支持向量机、朴素贝叶斯等传统机器学习方法高出15个百分点。通过模型的复杂度分析,进一步证明融合句法特征与BERT词嵌入后的深度学习模型,在细粒度商品评价情感分析上的优势。  相似文献   

14.
王天锐  鲍骞月  秦品乐 《计算机应用》2019,39(12):3515-3521
针对传统环境音分类模型对环境音特征提取不充分,以及卷积神经网络用于环境音分类时全连接层易造成过拟合现象的问题,提出了梅尔倒谱系数(MFCC)、深层卷积和Bagging算法相结合的环境音分类方法。首先,针对原始音频文件,利用预加重、加窗、离散傅里叶变换、梅尔滤波器转换、离散余弦映射等方法建立梅尔倒谱系数特征模型;然后,将特征模型输入卷积深度网络进行第二次特征提取;最后,借鉴强化学习思想,用Bagging集成算法集成线性判别分析器、支持向量机(SVM)、Softmax回归、XGBoost四个模型,以投票预测的形式对网络输出结果进行预测。实验结果表明,所提方法能够有效提高对环境音的特征提取能力和深层网络在环境音分类上的抗过拟合能力。  相似文献   

15.
针对传统基于注意力机制的神经网络不能联合关注局部特征和旋转不变特征的问题,提出一种基于多分支神经网络模型的弱监督细粒度图像分类方法。首先,用轻量级类激活图(CAM)网络定位有潜在语义信息的局部区域,设计可变形卷积的残差网络ResNet-50和旋转不变编码的方向响应网络(ORN);其次,利用预训练模型分别初始化特征网络,并输入原图和以上局部区域分别对模型进行微调;最后,组合三个分支内损失和分支间损失优化整个网络,对测试集进行分类预测。所提方法在CUB-200-2011和FGVC_Aircraft数据集上的分类准确率分别达到87.7%和90.8%,与多注意力卷积神经网络(MA-CNN)方法相比,分别提高了1.2个百分点和0.9个百分点;在Aircraft_2数据集上的分类准确率达到91.8%,比ResNet-50网络提高了4.1个百分点。实验结果表明,所提方法有效提高了弱监督细粒度图像分类的准确率。  相似文献   

16.

In order to improve the efficiency and accuracy of collecting theater music data and recognizing genres, and solve the problem that a single feature in traditional algorithms cannot efficiently classify music genres, the technology of collecting data based on the Internet of Things (IoT) and Deep Belief Network (DBN) is firstly proposed for application of collecting music data and recognizing genres. The study firstly introduces the scheme of collecting music data based on the Internet of Things (IoT) and the theoretical basis of the recognition and classification of music genres by DBN. Second, the study focuses on the construction and improvement of the music genre recognition algorithm under DBN. In other words, the algorithm is optimized by adding Dropout and momentum to the network, and the optimal network model after training is implemented. And finally, the effectiveness of the algorithm is confirmed by experiment and research. The experimental results show that the efficiency of the optimized algorithm of identifying the music genres in the music library reaches 75.8%, which is far better than the traditional classic algorithms in the past. It is concluded that the technology of music data collection and genre recognition based on IoT and DBN has strong advantages, which will greatly contribute to reducing the workload of manual collection and identification of classification features, and improve efficiency. Meanwhile, the optimized algorithm model can also be extended to other fields.

  相似文献   

17.
The aim of this article is to investigate whether separating music tracks at the pre-processing phase and extending feature vector by parameters related to the specific musical instruments that are characteristic for the given musical genre allow for efficient automatic musical genre classification in case of database containing thousands of music excerpts and a dozen of genres. Results of extensive experiments show that the approach proposed for music genre classification is promising. Overall, conglomerating parameters derived from both an original audio and a mixture of separated tracks improve classification effectiveness measures, demonstrating that the proposed feature vector and the Support Vector Machine (SVM) with Co-training mechanism are applicable to a large dataset.  相似文献   

18.
武茜  贾世杰 《计算机工程》2022,48(2):180-185+193
基于深度学习的人脸替换技术取得快速发展,但由DeepFake自动生成的人脸替换图片有可能危害人们的隐私安全。针对DeepFake图片鉴别问题,建立一种基于多通道注意力机制的深度学习鉴别网络模型。将Xception网络作为基础特征提取器,在多通道注意力模块中通过矩阵相乘的思想融合全局和局部的注意力表示,以减少重要信息损失。设计损失函数时添加中心损失,从而提高特征区分度。在训练过程中利用注意力图来引导训练图像的裁剪和去除,以达到数据增强的目的。实验结果表明,相比Xception、B4Att方法,在FaceForensics++数据集上该网络模型对DeepFake的检测精度分别提高0.77和0.45个百分点,在Celeb-DF数据集上分别提高5.30和4.68个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号