首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
针对机器学习模型对音乐流派特征识别能力较弱的问题,提出了一种基于深度卷积神经网络的音乐流派识别(DCNN-MGR)模型。该模型首先通过快速傅里叶变换提取音频信息,生成可以输入DCNN的频谱并切割生成频谱切片。然后通过融合带泄露整流(Leaky ReLU)函数、双曲正切(Tanh)函数和Softplus分类器对AlexNet进行增强。其次将生成的频谱切片输入增强的AlexNet进行多批次的训练与验证,提取并学习音乐特征,得到可以有效分辨音乐特征的网络模型。最后使用输出模型进行音乐流派识别测试。实验结果表明,增强的AlexNet在音乐特征识别准确率和网络收敛效果上明显优于AlexNet及其他常用的DCNN、DCNN-MGR模型在音乐流派识别准确率上比其他机器学习模型提升了4%~20%。  相似文献   

2.
为了提升深度卷积神经网络对音乐频谱流派特征的提取效果,提出一种基于频谱空间域特征注意的音乐流派分类算法模型DCNN-SSA。DCNN-SSA模型通过对不同音乐梅尔谱图的流派特征在空间域上进行有效标注,并且改变网络结构,从而在提升特征提取效果的同时确保模型的有效性,进而提升音乐流派分类的准确率。首先,将原始音频信号进行梅尔滤波,以模拟人耳的滤波操作对音乐的音强及节奏变化进行有效过滤,所生成的梅尔谱图进行切割后输入网络;然后,通过深化网络层数、改变卷积结构及增加空间注意力机制对模型在流派特征提取上进行增强;最后,通过在数据集上进行多批次的训练与验证来有效提取并学习音乐流派特征,从而得到可以对音乐流派进行有效分类的模型。在GTZAN数据集上的实验结果表明,基于空间注意的音乐流派分类算法与其他深度学习模型相比,在音乐流派分类准确率和模型收敛效果上有所提高,准确率提升了5.36个百分点~10.44个百分点。  相似文献   

3.
庄严  于凤芹 《计算机工程》2015,41(1):186-189
音乐主要包括形成节奏的冲击成分和形成韵律的和声成分,直接从音乐信号中提取特征会受到这2种成分相互影响。利用节奏与和声在时频平面具有不同规律的特点,通过对音乐信号进行谱图滤波,分离出音乐中的打击成分与和声成分。对打击与和声谱图分别进行小波调制,得到表现音乐节奏和韵律谱规律的调制谱特征,将其作为音乐流派分类中的长时特征。仿真实验结果表明,分离后的打击与和声成分谱图清晰地表征了音乐节奏和韵律的特点和规律;对8类音乐流派提取打击与和声调制谱特征,经线性鉴别分析降维后利用支持向量机进行分类,分类准确率达到73.54%。  相似文献   

4.
孙辉  许洁萍  刘彬彬 《计算机应用》2015,35(6):1753-1756
针对不同特征向量下选择最优核函数的学习方法问题,将多核学习支持向量机(MK-SVM)应用于音乐流派自动分类中,提出了将最优核函数进行加权组合构成合成核函数进行流派分类的方法。多核分类学习能够针对不同的声学特征采用不同的最优核函数,并通过学习得到各个核函数在分类中的权重,从而明确各声学特征在流派分类中的权重,为音乐流派分类中特征向量的分析和选择提供了一个清晰、明确的结果。在ISMIR 2011竞赛数据集上验证了提出的基于多核学习支持向量机(MKL-SVM)的分类方法,并与传统的基于单核支持向量机的方法进行了比较分析。实验结果表明基于MKL-SVM的音乐流派自动分类准确率比传统单核支持向量机的分类准确率提高了6.58%,且该方法与传统的特征选择结果比较,更清楚地解释了所选择的特征向量对流派分类的影响大小,通过选择影响较大的特征组合进行分类,分类结果也有了明显的提升。  相似文献   

5.
针对频谱图对于音乐特征挖掘较弱、深度学习分类模型复杂且训练时间长的问题,设计了一种基于频谱增强和卷积宽度学习(CNNBLS)的音乐流派分类模型.该模型首先通过SpecAugment中随机屏蔽部分频率信道的方法增强梅尔频谱图,再将切割后的梅尔频谱图作为CNNBLS的输入,同时将指数线性单元函数(ELU)融合进CNNBLS的卷积层,以增强其分类精度.相较于其他机器学习网络框架, CNNBLS能用少量的训练时间获得较高的分类精度.此外, CNNBLS可以对增量数据进行快速学习.实验结果表明:无增量模型CNNBLS在训练400首音乐数据可获得90.06%的分类准确率,增量模型Incremental-CNNBLS在增加400首训练数据后可达91.53%的分类准确率.  相似文献   

6.
针对自动的音乐流派分类这一音乐信息检索领域的热点问题,提出了多模态音乐流派分类的概念。针对传统的基于底层声学特征的音乐流派分类中的特征选择环节,实现了一种全新的特征选择算法——基于特征间相互影响的前向特征选择算法(IBFFS)。开创性地使用LDA(latent Dirichlet allocation)模型处理音乐标签,将标签属于每个流派的概率通过计算转换为对应的音乐属于每个流派的概率。  相似文献   

7.
在音乐流派分类过程中,音乐流派局部特征与整体特征不一致时,通常采用的局部特征投票取最大的方法(MaxVote)在音频片段流派分类精度不高,而流派特征分布比较均衡时分类结果不合理。针对以上问题,该文提出基于音乐片段流派分布特征的神经网络投票机制(NNVote)和结合高层音乐节奏特征的RhythmNNVote投票方法。实验结果表明,NNVote方法在7个流派上的分类总精度达到68.9%,较MaxVote提高将近10%。  相似文献   

8.
本文在音乐情感分类中的两个重要的环节:特征选择和分类器上进行了探索.在特征选择方面基于传统算法中单一特征无法全面表达音乐情感的问题,本文提出了多特征融合的方法,具体操作方式是用音色特征与韵律特征相结合作为音乐情感的符号表达;在分类器选择中,本文采用了在音频检索领域表现较好的深度置信网络进行音乐情感训练和分类.实验结果表明,该算法对音乐情感分类的表现较好,高于单一特征的分类方法和SVM分类的方法.  相似文献   

9.
为解决小样本中文语音情感识别准确度低的问题,提出一种基于残差网络改进的中文语音情感识别网络结构AResnet。使用时域增强和频域增强生成更复杂的模拟样本扩充语音情感数据,将注意力机制引入至残差网络(residual networks)中,关注谱图中情感特征分布,提升情感识别率。在CASIA中文语音数据集上训练、测试,其结果显示,对比DCNN+LSTM、Trumpt-6网络结构,识别率分别提升约14.9%、3%,验证了AResnet在中文语音情感识别中的有效性。该方法也在英语语音数据集eNTERFACE’05上进行实验,识别准确率为92%,验证了AResnet有较好的泛化能力。  相似文献   

10.
现有唇语识别研究多专注于提高识别精度、研究多模态输入特征等方面,对提高唇部视觉特征的有效性关注不多.而唇部的视觉信息在视觉语音识别和唇语识别中起着关键作用,尤其在音频被破坏或无音频信息时,唇部视觉信息尤为重要.如何获取准确有效的唇部视觉特征是当前唇语识别的难点工作之一.从唇语数据集、传统视觉特征提取方法、视觉特征提取的深度学习方法三方面综述了唇语识别方向近年来的最新研究工作:首先,总结了唇语识别数据集,将唇语数据集分为正视图和多视图两种类型,并总结整理两类数据集的特点、局限性和下载地址;其次,从像素点、形状和混合特征的角度介绍了唇部视觉特征提取的传统方法,重点介绍各方法的基本思想、网络结构和特点;然后,介绍了唇部视觉特征提取的深度学习方法,重点介绍2D CNN、3D CNN、2D CNN与3D CNN相结合、其他神经网络四种深度学习方法的网络结构和优缺点,并比较了这些方法在公开数据集上的性能表现;最后,对唇部视觉特征提取方法所面临的挑战和未来研究趋势进行了展望.  相似文献   

11.
基于深度残差网络图像分类算法研究综述   总被引:2,自引:0,他引:2  
近年来,由于计算机技术的飞速迅猛发展,特别是硬件条件的改善,计算能力不断提高,深层神经网络训练的时间大大缩短,深度残差网络也迅速成为一个新的研究热点.深度残差网络作为一种极深的网络架构,在精度和收敛等方面都展现出了很好的特性.研究者们深入研究其本质并在此基础上提出了很多关于深度残差网络的改进,如宽残差网络,金字塔型残差网络,密集型残差网络,注意力残差网络等等.本文从残差网络的设计出发,分析了不同残差单元的构造方式,介绍了深度残差网络不同的变体.从不同的角度比较了不同网络之间的差异以及这些网络架构在常用图像分类数据集上的性能表现.最后我们对于这些网络进行了总结,并讨论了未来深度残差网络在图像分类领域的一些研究方向.  相似文献   

12.
13.
音乐是目前最受欢迎的艺术和娱乐形式之一,是表达或寄托人们感情的艺术语言,然而随着数字音乐急剧增加,通过浅层的信息管理与筛选音乐十分困难。音乐自动标注作为一种组织海量音乐与丰富音乐信息的有效手段,可克服音乐信息检索语义鸿沟,健全音乐信息,使音乐具有更直观的表达,并推动音乐分类、音乐推荐、乐器识别等音乐信息检索任务的深入研究。当前音乐自动标注主要聚焦于解决特征提取、模型选择两类问题,结合目前研究重点,阐述了音乐自动标注的相关知识;系统地梳理了音乐自动标注领域的各类音频特征表示及特征提取方法,并对每类提取方法进行了定量分析与定性分析;归纳了该领域相关研究成果,从机器学习与深度学习两个角度着重分析了不同模型方法的差异性;介绍了常用数据集与性能评价指标,总结了不同数据集特点,并对评价指标进行了归类分析;最后指出了音乐自动标注领域研究面临的难点与挑战,并对未来研究方向进行了展望。  相似文献   

14.
随着深度学习的快速发展,计算机视觉领域对图像的分类研究不仅仅局限于识别出物体的类别,更需要在传统图像分类任务的基础上进行更细致的类别划分.通过对现有细粒度图像分类算法和模型的分析研究,提出一种基于Xception模型与WSDAN(weakly supervised data augmentation network)弱...  相似文献   

15.
细粒度视觉分类核心是提取图像判别式特征.目前大多数方法引入注意力机制,使网络聚焦于目标物体的重要区域.然而,这种方法只定位到目标物体的显著特征,无法囊括全部判别式特征,容易混淆具有相似特征的不同类别.因此,文中提出基于融合池化和注意力增强的细粒度视觉分类网络,旨在获得全面判别式特征.在网络末端,设计融合池化模块,包括全局平均池化、全局top-k池化和两者融合的三分支结构,获得多尺度判别式特征.此外,提出注意力增强模块,在注意力图的引导下通过注意力网格混合模块和注意力裁剪模块,获得2幅更具判别性的图像参与网络训练.在细粒度图像数据集CUB-200-2011、Stanford Cars、FGVC-Aircraft上的实验表明文中网络准确率较高,具有较强的竞争力.  相似文献   

16.
传统声纹识别方法过程复杂,模型识别准确率低,是声纹识别应用发展的关键问题。利用深度学习具有自主特征提取及分类的特点,结合卷积神经网络(CNN)和长短期记忆网络(LSTM),提出一种结合的网络模型学习声纹识别特征及对其进行身份认证。将原始语音转换为固定长度语谱图,顺序进入CNN、LSTM,结合网络进行训练以及声纹特征学习。通过对比CNN、LSTM以及DNN网络,验证CNN-LSTM网络在声纹识别中具有较少迭代次数情况下高准确率的特性。经实验结果可以得出,语音空间特征及时序特征均是声纹识别中重要的影响因素,实验中的CNN-LSTM网络模型准确率达到95.42%,损失低值达到0.097 3。该方法有利于实际声纹识别的应用。  相似文献   

17.
视觉问答任务旨在给机器输入一幅图像和一相关问题,计算机能够准确作答。针对这一任务,对记忆和注意力机制的神经网络结构进行了深入研究,这类网络显示出问题回答所需的某些推理能力。在分析动态记忆网络的基础上,提出了一种新的动态记忆网络,对原来的DMN的内存和输入模块进行改进。结合这些变化,一个新的图像输入模块引入到视觉问答系统中。在DAQUAR-ALL、COCO-QA和VQA数据集上验证了该方法的有效性。实验结果表明,所提出的新动态记忆模型取得了很好的结果,比一些经典深度方法都更出色。  相似文献   

18.
乳腺癌病理图像的自动分类具有重要的临床应用价值。基于人工提取特征的分类算法,存在需要专业领域知识、耗时费力、提取高质量特征困难等问题。为此,采用一种改进的深度卷积神经网络模型,实现了乳腺癌病理图像的自动分类;同时,利用数据增强和迁移学习方法,有效避免了深度学习模型受样本量限制时易出现的过拟合问题。实验结果表明,该方法的识别率可达到91%,且具有较好的鲁棒性和泛化性。  相似文献   

19.
声纹识别是当前热门的生物特征识别技术之一,能够通过说话人的语音识别其身份。针对声纹识别技术进行了研究,提出了一种基于卷积神经网络(CNN)和深度循环网络(RNN)的声纹识别方案CDRNN,CDRNN结合CNN和RNN的优势,用于移动终端声纹识别应用。CDRNN将说话者的原始语音信息经过一系列的处理并生成一张二维语谱图,利用CNN长于处理图像的优势从语谱图中提取语音信号的个性特征,这些个性特征再输入到Deep RNN中完成声纹识别,从而确定说话者的身份。实验结果表明了CDRNN方案能够获得比GMM-UBM等其他方案更好的识别准确率。  相似文献   

20.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号