首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
级联卷积神经网络(CNN)结构和循环神经网络(RNN)结构的卷积循环神经网络(CRNN)及其改进是当前主流的声音事件检测模型。然而,以端到端方式训练的CRNN声音事件检测模型无法从功能上约束CNN和RNN结构的作用。针对这一问题,该文提出了音频标记一致性约束CRNN声音事件检测方法(ATCC-CRNN)。该方法在CRNN模型的声音事件分类网络中添加了CRNN音频标记分支,同时增加了CNN音频标记网络对CRNN网络CNN结构输出的特征图进行音频标记。然后,通过在模型训练阶段限定CNN和CRNN的音频标记预测结果一致使CRNN模型的CNN结构更关注音频标记任务,RNN结构更关注建立音频样本的帧间关系。从而使CRNN模型的CNN和RNN结构具备了不同的特征描述功能。该文在IEEE DCASE 2019国际竞赛家庭环境声音事件检测任务(任务4)的数据集上进行了实验。实验结果显示:提出的ATCC-CRNN方法显著提高了CRNN模型的声音事件检测性能,在验证集和评估集上的F1得分提高了3.7%以上。这表明提出的ATCC-CRNN方法促进了CRNN模型的功能划分,有效改善了CRNN声音事件检测模型的泛化能力。  相似文献   

2.
刘亚灵  郭敏  马苗 《光电子.激光》2021,32(12):1271-1277
针对声音事件检测中仅在时频维度使用注意力机制的局限性以及卷积层单一导致的特征提取不足问题,本文提出基于多尺度注意力特征融合的卷积循环神经网络(convolutional recurrent neural network,CRNN)模型,以提高声音事件检测性能.首先,提出多尺度注意力模块,实现对局部时频单元和全局通道特征...  相似文献   

3.
Recently, deep recurrent neural networks have achieved great success in various machine learning tasks, and have also been applied for sound event detection. The detection of temporally overlapping sound events in realistic environments is much more challenging than in monophonic detection problems. In this paper, we present an approach to improve the accuracy of polyphonic sound event detection in multichannel audio based on gated recurrent neural networks in combination with auditory spectral features. In the proposed method, human hearing perception‐based spatial and spectral‐domain noise‐reduced harmonic features are extracted from multichannel audio and used as high‐resolution spectral inputs to train gated recurrent neural networks. This provides a fast and stable convergence rate compared to long short‐term memory recurrent neural networks. Our evaluation reveals that the proposed method outperforms the conventional approaches.  相似文献   

4.

Existing acoustic scene classification (ASC) systems often fail to generalize across different recording devices. In this work, we present an unsupervised domain adaptation method for ASC based on data standardization and feature projection. First, log-amplitude spectro-temporal features are standardized in a band-wise fashion over samples and time. Then, both source- and target-domain samples are projected onto the span of the principal eigenvectors of the covariance matrix of source-domain training data. The proposed method, being devised as a preprocessing procedure, is independent of the choice of the classification algorithm and can be readily applied to any ASC model at a minimal cost. Using the TUT Urban Acoustic Scenes 2018 Mobile Development dataset, we show that the proposed method can provide an absolute increment of over 10% compared to state-of-the-art unsupervised adaptation methods. Furthermore, the proposed method consistently outperforms a recent ASC model that ranked first in Task 1-A of the 2021 DCASE Challenge when evaluated on various unseen devices from the TAU Urban Acoustic Scenes 2020 Mobile Development dataset. In addition, our method appears robust even when provided with a small amount of target-domain data, proving effective using as few as 90 seconds of test audio recordings. Finally, we show that the proposed adaptation method can also be employed as a feature extraction stage for shallower neural networks, thus significantly reducing model complexity.

  相似文献   

5.
汤永清  方勇  黄青华 《信号处理》2011,27(4):606-611
声像距离控制是实现三维视听系统的关键技术之一。现有的音频环绕声技术产生的声像距离固定,且扬声器环形结构不利于与视听系统融合。针对上述问题,本文提出一种利用线型扬声器阵列通过二维FIR滤波器控制声像距离的方法。首先根据声波的传播特点,通过调整声源到波前的时间延迟,改变波前半径产生了虚拟声像。将时间延迟作为二维FIR滤波器的群延迟,使滤波器具有线性相位。考虑到宽带信号,设计具有楔形过渡带的滤波器幅频响应,使在期望宽度内形成波束。最后给出了滤波器实现步骤以及仿真结果。实验表明利用二维FIR滤波器在线型扬声器阵列中实现了声像距离的控制,输出稳定的波束。该方法改变了声像的距离,增强了沉浸感,线型扬声器更容易与视听系统相结合。   相似文献   

6.
刘淼  王晶  董桂官  易伟明 《信号处理》2021,37(10):1907-1913
针对DCASE2017挑战赛任务4提供的大规模弱标记声音事件检测数据集,搭建了基于梅尔滤波器特征(Fbank)、卷积神经网络(CNN)以及循环神经网络(RNN)的多类别声音事件检测系统,分析了attention和linear softmax两种已有的常用池化层在神经网络反向传播中的部分推演过程,并在linear softmax池化层的基础上进行改进,提出了一种“指数可学习的幂函数softmax”池化层。实验结果表明,相比于DCASE竞赛中获得第一名的模型,应用“指数可学习的幂函 softmax”池化层的检测系统,将段级别的声音事件预测的F1值从0.556提高到0.652,帧级别预测的F1值从0.518提高到0.583,帧级别预测的error rate (ER) 从0.730降低到0.667。   相似文献   

7.
何礼  周翊  刘宏清 《信号处理》2018,34(12):1490-1498
本文提出了一种在干扰声源和背景噪声存在条件下麦克风阵列噪声消除的方法。麦克风阵列通过波束形成增强由导向矢量所指定方向的目标声源来抑制背景噪声。然而,现有的波束形成算法在干扰声源存在的情况下,无法进行准确的导向矢量估计。为此,本文提出一种基于音频信号互相关功率谱相位的麦克风阵列噪声消除方法。首先通过音频信号的相位时频掩码估计导向矢量,并对其进行波束形成,从而有效抑制干扰声源和背景噪声;然后利用语音存在概率,采用最大似然的方法估计波束形成后信号中残留的干扰噪声功率谱密度,对其进行后处理,进一步抑制残留干扰和噪声。实验结果表明在干扰声源和背景噪声存在的条件下,所提方法有效地实现了麦克风阵列噪声消除,且各种性能指标优于基线方法。   相似文献   

8.
针对图像中某几类物体具有相似颜色特征而导致的分类困难问题,本文提出了一种具有隐蔽色特征物体的图像分类方法.该方法针对可见光图像中具有颜色隐蔽性物体而难以区分的问题,通过将二维图像的邻域像素空间特征与高光谱图像的谱段特征相结合并使用改进的局部线性嵌入降维算法实现了空谱联合的特征降维,最终利用主动学习胶囊网络训练高光谱数据...  相似文献   

9.
飞行模拟器是用于飞行员训练的重要装备,具有安全、节能、降低训练成本的优点,声音系统是飞行模拟器的重要组成部分,为飞行员提供声音提示信息,以使飞行员产生沉浸感。微软的DirectSound开发组件具有功能强大,操作方便和成本低廉的特点。针对飞行模拟器背景声音的复杂性与多样性,根据各种声音的不同特点,将其分为四类,分别利用DirectSound组件进行仿真实现。  相似文献   

10.
肖易明  张海剑  孙洪  丁昊 《信号处理》2019,35(12):1969-1978
在日常生活中视觉事件通常伴随着声音的产生。这表明视频流与音频之间存在某种潜在的联系,本文称之为音视频同步的联合表达。本文将视频流与音频融合并通过训练所设计的神经网络预测视频流和音频是否在时间上同步来学习这种联合表达。与传统音视频信息融合方法不同,本文引入注意力机制,利用视频特征与音频特征的皮尔森相关系数在时间维度和空间维度同时对视频流加权,使视频流与音频关联更加紧密。基于学习到的音视频同步的联合表达,本文进一步利用类激活图方法进行视频声源定位。实验结果表明,所提出的引入注意力机制的音视频同步检测模型可以更好地判定给定视频的音视频是否同步,即更好地学习到音视频同步的联合表达,从而也可以有效地定位视频声源。   相似文献   

11.
针对流量数据集中类别不平衡限制了分类模型对少数类攻击流量的检测性能这一问题,该文提出一种基于联合注意力机制和1维卷积神经网络-双向长短期记忆网络(1DCNN-BiLSTM)模型的流量异常检测方法。首先在数据预处理过程中利用BorderlineSMOTE方法对流量数据不平衡训练样本预处理,使得各类流量数据均衡,有助于后续模型对各类数据的充分训练。然后设计联合注意力机制和1DCNN-BiLSTM的模型对流量数据进行训练,提取流量数据的局部和长距离序列特征并进行分类,通过注意力机制将对分类有用的特征按其重要性赋予权值,提高对少数攻击类的检出率。实验结果表明,同几种现有方法相比,该文方法对NSL-KDD和CICIDS2017数据集的检测准确率最高(可达93.17%和98.65%),对NSL-KDD数据集中的提权攻击(U2R)攻击流量的检出率至少提升13.70%,证明了该文方法提升少数类攻击流量检出率的有效性。  相似文献   

12.
In this paper, an artificial stereo extension method that creates stereophonic sound from a mono sound source is proposed. The proposed method first trains deep neural networks (DNNs) that model the nonlinear relationship between the dominant and residual signals of the stereo channel. In the training stage, the band‐wise log spectral magnitude and unwrapped phase of both the dominant and residual signals are utilized to model the nonlinearities of each sub‐band through deep architecture. From that point, stereo extension is conducted by estimating the residual signal that corresponds to the input mono channel signal with the trained DNN model in a sub‐band domain. The performance of the proposed method was evaluated using a log spectral distortion (LSD) measure and multiple stimuli with a hidden reference and anchor (MUSHRA) test. The results showed that the proposed method provided a lower LSD and higher MUSHRA score than conventional methods that use hidden Markov models and DNN with full‐band processing.  相似文献   

13.
李应  印佳丽 《电子学报》2018,46(11):2705-2713
论文针对各种背景声音中低信噪比声音事件的检测问题,提出把背景声音与声音事件混合,形成带噪声样本来训练分类器.在预处理阶段,使用基于经验模态分解与2-6级固有模态函数的投票方法,对背景声音与声音事件端点进行预测并估算信噪比.接着使用子带能量分布方法,提取声音数据的特征.最后,论文将背景声音与声音事件样本库中所有声音样本按照估算的信噪比相混合,生成混合声音特征训练多随机森林,用于低信噪比声音事件的检测.实验证实,所提出的方法可以用于各种声场景下低信噪比声音事件的检测,并能在信噪比为-5dB的情况下保持67.1%的平均检测率.  相似文献   

14.
陈善学  王欣欣 《信号处理》2021,37(4):545-555
针对训练样本量少导致高光谱图像分类精度低的问题,本文提出了一种基于字典优化的联合稀疏表示高光谱图像分类方法.首先,采取基于层次聚类的波段选择方法降低高光谱图像数据维度;其次,结合空间信息将高光谱数据划分为多个子集,利用已知标签信息的训练样本标记各个子集中可能成为训练样本的像元,组成训练样本备选集,根据光谱相似度准则筛选...  相似文献   

15.
韩欣宇  吴鸣  杨军  张喆 《信号处理》2019,35(9):1564-1571
本文提出一种适用于任意阵型和阵元指向性的球谐波域声源定位方法,能够在较宽的频域范围内,尤其是低频,提供较高的空间分辨率。水下噪声源的高分辨识别具有重大意义。传统阵列信号处理方法对低频噪声源的精确定位要求阵列具有较大孔径和较多的阵元数,导致系统过于庞大且成本较高。我们基于声场的球谐波表达和变换,采用分布在一定空间区域内的多个阵列估计该区域的球谐波系数矢量,对系数矢量进行信号处理实现声源定位。理论证明了该方法具有理想的空间选择特性。在一种特定的阵元分布下,仿真研究了该算法的方位谱估计性能以及阵元不一致性和位置误差对声源定位性能的影响。仿真结果显示,该算法在低频具有较高的空间分辨率且误差对算法定位性能的影响有限。   相似文献   

16.
提出了一种检测篮球比赛视频中重要音频关键词(短管哨声)的方法。通过分析短管哨声的频谱分布特性提出一种二级检测方法:首先提取特定子带能量峰指数特征,并采用门限决策方法获得关键词候选集;第二级再结合梅尔频率倒谱系数和支持向量机得到最终的关键词检测结果。选取时长为1378s的NBA篮球比赛音频片段作为测试序列.验证了本方法具有正确率和检出率分别为95.45%和91.3%的性能。  相似文献   

17.
本文研究基于音频的家庭活动识别方法,提出了一种基于加性间距胶囊神经网络识别模型,针对传统胶囊神经网络目标函数仅以输出胶囊模长作为约束的弊端,本文以几何学的视角,在胶囊神经网络结构中加入Transition层,使用Transition层对胶囊单元空间关系进行变基至一维空间,再使用加性间距Softmax作为目标函数,以同类特征变化小,非同类特征差异大作为优化策略构建基于胶囊向量空间关系的目标函数以提高模型分类能力,最后对方法进行试验,采用音频事件对家庭活动进行分类识别.选择声学场景和事件检测与分类(Detection and Classification of Acoustic Scenes and Events,DCASE)2018挑战任务5作为数据集,进行分类器构建和测试,最终平均F1分数达到92.3%,优于其他主流方法.  相似文献   

18.
Online social media networks are gaining attention worldwide, with an increasing number of people relying on them to connect, communicate and share their daily pertinent event-related information. Event detection is now increasingly leveraging online social networks for highlighting events happening around the world via the Internet of People. In this paper, a novel Event Detection model based on Scoring and Word Embedding (ED-SWE) is proposed for discovering key events from a large volume of data streams of tweets and for generating an event summary using keywords and top-k tweets. The proposed ED-SWE model can distill high-quality tweets, reduce the negative impact of the advent of spam, and identify latent events in the data streams automatically. Moreover, a word embedding algorithm is used to learn a real-valued vector representation for a predefined fixed-sized vocabulary from a corpus of Twitter data. In order to further improve the performance of the Expectation-Maximization (EM) iteration algorithm, a novel initialization method based on the authority values of the tweets is also proposed in this paper to detect live events efficiently and precisely. Finally, a novel automatic identification method based on the cosine measure is used to automatically evaluate whether a given topic can form a live event. Experiments conducted on a real-world dataset demonstrate that the ED-SWE model exhibits better efficiency and accuracy than several state-of-art event detection models.  相似文献   

19.
刘鑫  鲍长春 《电子学报》2016,44(11):2758-2766
宽带音频通信系统对传输信号有效带宽的限制会降低重建音频的主观质量和自然程度.本文提出了一种基于回声状态网络的宽带向超宽带音频盲目式频带扩展方法.该方法借助回声状态网络来模拟音频信号高低频频谱参数间的映射关系,并依据网络模型中的时延递归结构连续更新系统状态来近似描述音频特征的时域演变过程,有效地估计了高频成分的频谱包络.同时,结合频谱复制方法得到的高频频谱细节,该方法实现了宽带向超宽带音频的有效扩展.测试结果表明,本文所提方法提升了宽带音频的听觉质量;对于多数测试数据,该方法在静态和动态失真方面获得了优于高斯混合模型扩展方法的扩展性能.  相似文献   

20.
提出了一种基于网络反馈的无线多终端音频同步实现方法。该方法对连接到同一个无线局域网的多个无线音频系统进行分组管理,并由移动终端实现控制,通过比较主从设备之间的播放进度时间差来做出调整,直接修改声卡RAM缓冲区里的音频数据,实现音乐的同步播放。仿真实验表明,该方法能通过移动终端同时控制无线局域网内多个音频系统,并同一时间同步播放同一首音乐,且同步误差时间可以控制在50毫秒范围以内,人耳基本无法区别,提高了用户体验。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号