首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 156 毫秒
1.
杨立东  胡江涛 《信号处理》2021,37(10):1969-1976
随着并行计算能力的不断攀升和音频数据量的日益扩增,音频场景识别成为场景理解领域重要的研究内容之一。针对音频场景识别建模难度大和识别准确率不高的问题,本文提出了融合多优化机制的并行卷积循环神经网络算法模型。首先,将音频信号经预处理后转化为一定尺寸的梅尔声谱图,之后输入到网络模型中进行充分的空间特征和时间特征学习,最后进行识别。为了验证模型的有效性,在DCASE2019音频场景数据集上进行识别性能测试,结果显示,该算法模型对音频场景的识别准确率能够达到88.84%,优于传统网络模型,说明该算法模型对音频场景识别问题的有效性。   相似文献   

2.
本文研究基于音频的家庭活动识别方法,提出了一种基于加性间距胶囊神经网络识别模型,针对传统胶囊神经网络目标函数仅以输出胶囊模长作为约束的弊端,本文以几何学的视角,在胶囊神经网络结构中加入Transition层,使用Transition层对胶囊单元空间关系进行变基至一维空间,再使用加性间距Softmax作为目标函数,以同类特征变化小,非同类特征差异大作为优化策略构建基于胶囊向量空间关系的目标函数以提高模型分类能力,最后对方法进行试验,采用音频事件对家庭活动进行分类识别.选择声学场景和事件检测与分类(Detection and Classification of Acoustic Scenes and Events,DCASE)2018挑战任务5作为数据集,进行分类器构建和测试,最终平均F1分数达到92.3%,优于其他主流方法.  相似文献   

3.
刘亚荣  黄昕哲  谢晓兰  刘鑫 《信号处理》2020,36(6):1020-1028
通过对复杂环境下声音识别技术进行研究,本文提出了美尔谱系数(MFSC)与卷积神经网络(CNN)相组合的环境声音识别方法。对声音事件提取其MFSC特征,将特征参数作为输入送入设计好的CNN模型中对声音事件进行分类。实验数据集采用ESC-10,将构建的卷积神经网络模型与随机森林、支持向量机(SVM)、深度神经网络(DNN)及DCASE比赛中常用的三种识别模型进行对比实验。实验结果表明,在相同数据集下,本文所设计的美尔谱系数与卷积神经网络相组合的环境声音识别方法相较传统的声音识别方法在识别率上分别有13.1%,18.3%,15.7%的提升,相较于DCASE比赛中的三种常用识别模型,本文所设计识别模型识别率及识别效率均有明显的优势。   相似文献   

4.
无线频谱状态感知是实现无线频谱资源高效利用及各种用频系统和谐共存的先决条件之一。针对复杂无线传播环境下获取的频谱观测往往存在数据稀疏性、数据类别分布不稳定、标记数据严重不足的情况,该文提出基于插值和小样本学习(FSL)分类的无线频谱状态感知方法。首先,对捕获的稀疏频谱观测数据插值,构建频谱状态地图,作为频谱状态分类器的输入数据。其次,针对频谱数据类别分布不稳定、数据量严重不足的问题,基于小样本学习方法,利用嵌入模块和度量模块协同工作,以实现快速精确的频谱状态分类。具体地,利用嵌入模块将频谱数据映射到嵌入空间,提取频谱数据中的隐含特征;在度量模块的设计中,分别提出基于原型和基于样例的两种类别表示方式,通过计算待分类样本与类别之间的相似度判断待分类样本类别。最后,为了确保分类模型克服测试样本数量少导致过拟合问题,设置A-way B-shot任务训练模型。仿真结果表明,与传统机器学习方法相比,本文模型可以在低信噪比条件下进行精准分类;同时,在测试集样本数很少的情况下,或者在测试集中出现在训练集从未见到的新类时,所训练的模型也可以精准快速判别无线频谱的场景类别。  相似文献   

5.
随着频率使用设备的激增和大数据时代的到来,频谱管理和控制面临着有效性和准确性的挑战.调制分类技术是频谱管理和控制的基础,也是其关键部分.因此,在大数据场景下进行有效的调制分类技术非常重要.本文不仅考虑了大数据背景下分类模型的有效性,还考虑了复杂电磁环境中噪声的动态性.因此,构建了一个包含不同信噪比下不同信号的大数据集,...  相似文献   

6.
深度神经网络声音事件检测方法需要大量标记声音事件类别和起止时间的强标签音频样本,然而强标签标注非常困难和耗时.弱标签声音事件检测是解决这一困难的有效途径.本文将弱标签声音事件检测作为多实例学习问题,并基于卷积循环神经网络提出弱标签声音事件检测的空间-通道特征表征与自注意池化方法 .该方法研究多实例弱标签声音事件检测的特征表征和帧级预测结果池化两个方面的内容.在特征表征方面,为了增强卷积神经网络的特征表征能力,结合上下文门控和通道注意机制构建门控注意力结构并嵌入到卷积循环神经网络中,实现了音频样本特征的空间和通道特征选择;在预测结果池化方面,引入自注意思想设计音频帧预测结果的自注意池化方法,增强了音频样本中事件帧之间的相关度,使事件帧获得更大的权重.本文方法通过对卷积循环神经网络特征表征和预测结果池化的革新,有效提升了模型的检测性能.本文提出的方法在DCASE 2017任务4和DCASE 2018任务4数据集的评估集中分别取得了52.47%和31.00%的F1得分,性能优于当前绝大部分的弱标签声音事件检测方法 .实验结果表明:本文提出的空间-通道特征表征与自注意池化方法能显著改善弱标签声...  相似文献   

7.
杨浩聪  史创  李会勇 《信号处理》2020,36(6):871-878
针对立体声音频采集设备逐渐普及的趋势,本文提出了一种保留立体声相位信息的声音场景分类算法。在预处理阶段,根据左右通道的相位信息对音频样本进行源环境提取,生成一种全新的四通道特征。在此基础上,通过集成多个卷积神经网络,搭建一个针对立体声音频样本的声音场景分类系统。区别于现有声音场景分类系统只使用时频谱幅度信息,本文所提出的方法保留了立体声音频的相位信息。这使得声学特征中所包含的空间方位信息更丰富,立体声音频的优势得到发挥。实验结果证明保留立体声相位信息的声音场景分类系统具有更好的性能,在2019年IEEE声学信号处理技术委员会举办的声音场景分类赛事中相比于基线系统的识别准确率提升了18.3%。   相似文献   

8.
传统音频分类任务仅仅是从单层次音频提取特征向量进行分类,即便使用过大的模型,其过多的参数也会造成特征之间的耦合,不符合特征提取“高聚类,低耦合”的原则。由于注意到一些与情绪相关的协变量并没有得到充分利用,本文在模型中加入性别先验知识;将多层次音频特征分类问题转化为多任务问题进行处理,从而对多层次特征进行解耦再进行分类;针对特征分布的再优化方面设计了一个中心损失模块。通过在IEMOCAP数据集上的实验结果表明,本文提出模型的加权精度(WA)和未加权精度(UA)分别达到了71.94%和73.37%,与原本的多层次模型相比,WA和UA分别提升了1.38%和2.35%。此外,还根据Nlinear和Dlinear算法设计了两个单层次音频特征提取器,在单层次音频特征分类实验中取得了较好的结果。  相似文献   

9.
针对关系网络(RN)模型缺乏对分类任务整体相关信息的感知能力的问题,该文提出基于任务感知关系网络(TARN)的小样本学习(FSL)算法。引入模糊C均值(FCM)聚类生成基于任务全局分布的类别原型,同时设计任务相关注意力机制(TCA),改进RN中的1对1度量方式,使得在与类别原型对比时,局部特征聚合了任务全局信息。和RN比,在数据集Mini-ImageNet上,5-way 1-shot和5-way 5-shot设置中的分类准确率分别提高了8.15%和7.0%,在数据集Tiered-ImageNet上,5-way 1-shot和5-way 5-shot设置中的分类准确率分别提高了7.81%和6.7%。与位置感知的关系网络模型比,在数据集Mini-ImageNet上,5-way 1-shot设置中分类准确率也提高了1.24%。与其他小样本图像分类算法性能比较,TARN模型在两个数据集上都获得了最佳的识别精度。该方法将任务相关信息和度量网络模型进行结合可以有效提高小样本图像分类准确率。  相似文献   

10.
声场景分类,就是训练计算机通过声音中所包含的信息将声音正确的划分到其所属的场景中,其在物联网设备、智能助听器、自动驾驶等领域有着广泛的应用。本文根据声学特征谱图的特点和深度学习中的卷积神经网络理论,提出了一种基于卷积神经网络的声场景分类方法。首先提取音频的对数Mel谱图及其一阶二阶差分谱图,并在通道维度上进行拼接,随后利用中值滤波器对融合谱图进行分层,得到两个融合谱图分量。然后搭建了双路径深度卷积神经网络分别对每个谱图分量进行建模,并在系统输出前将两个路径获得的特征图进行融合,最后通过全连接层进行分类。并在TUT数据集上进行实验,分类准确率可达79.2%  相似文献   

11.
级联卷积神经网络(CNN)结构和循环神经网络(RNN)结构的卷积循环神经网络(CRNN)及其改进是当前主流的声音事件检测模型.然而,以端到端方式训练的CRNN声音事件检测模型无法从功能上约束CNN和RNN结构的作用.针对这一问题,该文提出了音频标记一致性约束CRNN声音事件检测方法(ATCC-CRNN).该方法在CRN...  相似文献   

12.

Existing acoustic scene classification (ASC) systems often fail to generalize across different recording devices. In this work, we present an unsupervised domain adaptation method for ASC based on data standardization and feature projection. First, log-amplitude spectro-temporal features are standardized in a band-wise fashion over samples and time. Then, both source- and target-domain samples are projected onto the span of the principal eigenvectors of the covariance matrix of source-domain training data. The proposed method, being devised as a preprocessing procedure, is independent of the choice of the classification algorithm and can be readily applied to any ASC model at a minimal cost. Using the TUT Urban Acoustic Scenes 2018 Mobile Development dataset, we show that the proposed method can provide an absolute increment of over 10% compared to state-of-the-art unsupervised adaptation methods. Furthermore, the proposed method consistently outperforms a recent ASC model that ranked first in Task 1-A of the 2021 DCASE Challenge when evaluated on various unseen devices from the TAU Urban Acoustic Scenes 2020 Mobile Development dataset. In addition, our method appears robust even when provided with a small amount of target-domain data, proving effective using as few as 90 seconds of test audio recordings. Finally, we show that the proposed adaptation method can also be employed as a feature extraction stage for shallower neural networks, thus significantly reducing model complexity.

  相似文献   

13.
李祺  王骥腾  张淼 《中国通信》2012,9(5):108-116
A hierarchical method for scene analysis in audio sensor networks is proposed. This method consists of two stages: element detection stage and audio scene analysis stage. In the former stage, the basic audio elements are modeled by the HMM models and trained by enough samples off-line, and we adaptively add or remove basic element from the targeted element pool according to the time, place and other environment parameters. In the latter stage, a data fusion algorithm is used to combine the sensory information of the same area, and then, a rule-based method is employed to analyze the audio scene based on the fused data. We conduct some experiments to evaluate the performance of the proposed method that about 70% audio scenes can be detected correctly by this method. The experiment evaluations demonstrate that our method can achieve satisfactory results.  相似文献   

14.
基于音频的场景分析技术对机器自动感知环境特征,提高自动化程度等具有重要的意义。考虑到人耳的听觉特性,采用反映人类听觉特性的Mel倒谱系数MFCC(Mel frequency cepstral coefficient)作为音频信号特征,提出了一种用矢量量化来进行音频场景分析的方法。  相似文献   

15.
广播新闻语料识别中的自动分段和分类算法   总被引:1,自引:0,他引:1  
吕萍  颜永红 《电子与信息学报》2006,28(12):2292-2295
该介绍了中文广播新闻语料识别任务中的自动分段和自动分类算法。提出了3阶段自动分段系统。该方法通过粗分段、精细分段和平滑3个阶段,将音频流分割为易于识别的音频段。在精细分段阶段,文中提出两种算法:动态噪声跟踪分段算法和基于单音素解码的分段算法。仿效说话人鉴别中的方法,文中提出了基于混合高斯模型的分类算法。该算法较好地解决了音频段的多类判决问题。在新闻联播测试数据中的实验结果表明,该文提出的自动分段和分类算法性能与手工分段分类性能几乎相当。  相似文献   

16.
林淑瑞  张晓辉  郭敏  张卫强  王贵锦 《信号处理》2021,37(10):1889-1898
近年来,情感计算逐渐成为人机交互发展突破的关键,而情感识别作为情感计算的重要部分,也受到了广泛的关注。本文实现了基于ResNet18的面部表情识别系统和基于HGFM架构的语音情感识别模型,通过调整参数,训练出了性能较好的模型。在此基础上,通过特征级融合和决策级融合这两种多模态融合策略,实现了包含视频和音频信号的多模态情感识别系统,展现了多模态情感识别系统性能的优越性。两种不同融合策略下的音视频情感识别模型相比视频模态和音频模态,在准确率上都有一定的提升,验证了多模态模型往往比最优的单模态模型的识别性能更好的结论。本文所实现的模型取得了较好的情感识别性能,融合后的音视频双模态模型的准确率达到了76.84%,与现有最优模型相比提升了3.50%,在与现有的音视频情感识别模型的比较中具有性能上的优势。   相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号