首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
级联卷积神经网络(CNN)结构和循环神经网络(RNN)结构的卷积循环神经网络(CRNN)及其改进是当前主流的声音事件检测模型.然而,以端到端方式训练的CRNN声音事件检测模型无法从功能上约束CNN和RNN结构的作用.针对这一问题,该文提出了音频标记一致性约束CRNN声音事件检测方法(ATCC-CRNN).该方法在CRN...  相似文献   

2.
深度神经网络声音事件检测方法需要大量标记声音事件类别和起止时间的强标签音频样本,然而强标签标注非常困难和耗时.弱标签声音事件检测是解决这一困难的有效途径.本文将弱标签声音事件检测作为多实例学习问题,并基于卷积循环神经网络提出弱标签声音事件检测的空间-通道特征表征与自注意池化方法 .该方法研究多实例弱标签声音事件检测的特征表征和帧级预测结果池化两个方面的内容.在特征表征方面,为了增强卷积神经网络的特征表征能力,结合上下文门控和通道注意机制构建门控注意力结构并嵌入到卷积循环神经网络中,实现了音频样本特征的空间和通道特征选择;在预测结果池化方面,引入自注意思想设计音频帧预测结果的自注意池化方法,增强了音频样本中事件帧之间的相关度,使事件帧获得更大的权重.本文方法通过对卷积循环神经网络特征表征和预测结果池化的革新,有效提升了模型的检测性能.本文提出的方法在DCASE 2017任务4和DCASE 2018任务4数据集的评估集中分别取得了52.47%和31.00%的F1得分,性能优于当前绝大部分的弱标签声音事件检测方法 .实验结果表明:本文提出的空间-通道特征表征与自注意池化方法能显著改善弱标签声...  相似文献   

3.
本文针对背景干扰、特征信息不足以及尺度剧烈变化等问题,提出了一种基于多尺度及双注意力机制(Multi-Scale and Dual Attention,MSDA)的小尺寸人群计数网络.MSDA网络主要由空间一通道双注意力(Spatial Channel-dual Attention,SCA)模块和多尺度特征融合(Multi-scale Feature Fusion,MFF)模块构成.MFF模块将特征送入三列拥有不同卷积核的膨胀卷积来扩大小目标的空间尺度,再通过特征级联及卷积操作进行多尺度特征融合;SCA模块把特征送入通道注意力网络,使用空间注意力中的池化操作及逐像素相乘操作加强细节信息;最后将处理好的特征送入密度图生成模块,通过1 x 1卷积获得密度图.在Mall数据集和Shanghaitech数据集上进行了测试,取得了较好的准确率与鲁棒性.  相似文献   

4.
研究采用卫星遥感技术获取高分辨率遥感影像水体样本数据集,基于深度卷积神经网络从高分辨遥感影像中提取水体并进行黑臭水体智能监测,提出了一种改进U-Net的黑臭水体检测网络模型(IWDNet)。基于U-Net结构引入跳跃式多尺度特征融合,结合通道注意力机制、卷积注意力模块、通道与空间注意力机制生成不同多尺度特征融合注意力机制(MFFAM)模块进行对比,并引入空洞卷积扩大网络感受野,最终实现黑臭水体的识别检测。实验证明:基于跳跃式多尺度融合与CBAM注意力机制的黑臭水体检测网络(MFFCBAM-IWNet)模型有效提升了识别精度,在高分辨遥感影像水体样本数据集上表现最佳,总体精度达98.56%,Kappa系数达0.978 4。  相似文献   

5.
刘淼  王晶  董桂官  易伟明 《信号处理》2021,37(10):1907-1913
针对DCASE2017挑战赛任务4提供的大规模弱标记声音事件检测数据集,搭建了基于梅尔滤波器特征(Fbank)、卷积神经网络(CNN)以及循环神经网络(RNN)的多类别声音事件检测系统,分析了attention和linear softmax两种已有的常用池化层在神经网络反向传播中的部分推演过程,并在linear softmax池化层的基础上进行改进,提出了一种“指数可学习的幂函数softmax”池化层。实验结果表明,相比于DCASE竞赛中获得第一名的模型,应用“指数可学习的幂函 softmax”池化层的检测系统,将段级别的声音事件预测的F1值从0.556提高到0.652,帧级别预测的F1值从0.518提高到0.583,帧级别预测的error rate (ER) 从0.730降低到0.667。   相似文献   

6.
随着信息技术的快速发展,网络安全问题日益严峻,入侵检测成为保护网络系统的关键任务之一。为了获得更好的网络流量特征,提出了一种基于多尺度一维卷积神经网络的入侵检测模型。首先,利用一维卷积块提取数据的原始特征;然后,采用三种不同尺度的一维卷积对网络入侵数据分别提取特征;最后,将不同尺度的特征融合,以构建出网络入侵检测模型。文中所提方法在两个公开的网络入侵检测数据集上进行了实验验证,结果表明,基于多尺度一维卷积神经网络融合的特征向量包含更加丰富网络流量特征,能够有效提高入侵的性能。  相似文献   

7.
本文提出了一种场景文本检测方法,用于应对复杂自然场景中文本检测的挑战。该方法采用了双重注意力和多尺度特征融合的策略,通过双重注意力融合机制增强了文本特征通道之间的关联性,提升了整体检测性能。在考虑到深层特征图上下采样可能引发的语义信息损失的基础上,提出了空洞卷积多尺度特征融合金字塔(dilated convolution multi-scale feature fusion pyramid structure, MFPN),它采用双融合机制来增强语义特征,有助于加强语义特征,克服尺度变化的影响。针对不同密度信息融合引发的语义冲突和多尺度特征表达受限问题,创新性地引入了多尺度特征融合模块(multi-scale feature fusion module, MFFM)。此外,针对容易被冲突信息掩盖的小文本问题,引入了特征细化模块(feature refinement module, FRM)。实验表明,本文的方法对复杂场景中文本检测有效,其F值在CTW1500、ICDAR2015和Total-Text 3个数据集上分别达到了85.6%、87.1%和86.3%。  相似文献   

8.
针对基于深度学习的目标检测网络模型多采用级联的卷积网络结构进行特征提取,没有很好地利用多尺度特征融合的信息,以及卷积往往采用方形卷积核而没有提取出具备方向性的特征等问题,提出了一种特征提取模块,采用不同大小形状的卷积核结合异性卷积核并行提取特征,并进行融合。该类结构相比于级联网络更能提取并融合目标的多尺度特征,同时提取具有方向性的特征。提出的特征增强型单步目标检测器(Feature Enhanced Single Shot Detector,FESSD)网络基于单步目标检测器(Single Shot Detector,SSD),修改了网络结构、加入特征提取模块并采用多层特征融合,在VOC0712数据集上大大提高了检测准确率。  相似文献   

9.
针对基于记忆单元的自编码器模型(Dynamic Prototype Unit Model,DPU)在检测视频异常时没有充分利用多层次特征、未考虑异常与正常事件间的结构性差异的问题,提出融合多尺度记忆模块和多尺度结构相似性的异常检测模型.新模型构建了多尺度记忆模块(Multi Scale Memory Module),利用不同尺度空间的记忆单元对编码层特征进行编码,并将编码结果与解码层特征拼接,既能保留网络的浅层细节信息,又能促进正常模式的多样性.为了约束对正常事件中结构信息的学习,组合多尺度结构相似性(Multi Scale Structure Similarity Index,MS-SSIM)误差与L 1误差作为目标函数,使预测视频中的事件结构更接近正常事件,提高视频中异常事件的预测误差.在标准数据集UCSD Ped1、UCSD Ped2和Avenue数据集上的实验结果表明,提出模型的帧级AUC比原模型分别提高了0.8%、3.4%和1.0%,帧率达到142.9 fps.  相似文献   

10.
在语种识别过程中,为提取语音信号中的空间特 征以及时序特征,从而达到提高多语 种识别准确率的目的,提出了一种利用卷积循环神经网络(convolutional recurrent neural network,CRNN)混合神经网络的多语种识别模型。该模型首先提 取语音信号的声学特征;然后将特征输入到卷积神经网络(convolutional neural network,CNN) 提取低维度的空间特征;再通过空 间金字塔池化层(spatial pyramid pooling layer,SPP layer) 对空间特征进行规整,得到固定长度的一维特征;最后将其输入到循环神经 网络(recurrenrt neural network,CNN) 来判别语种信息。为验证模型的鲁棒性,实验分别在3个数据集上进行,结果表明:相 比于传统的CNN和RNN,CRNN混合神经网络对不同数据集的语种识别 准确率均有提高,其中在8语种数据集中时长为5 s的语音上最为明显,分别提高了 5.3% 和6.1%。  相似文献   

11.
刘笑楠  武德彬  刘振宇  戚雪 《电讯技术》2023,63(11):1797-1802
针对原始SSD(Single Shot Multibox Detector)算法未充分利用各特征层之间关系导致浅层特征层缺乏小目标语义信息的问题,为了提高对小目标的检测能力,提出了一种结合PANet多尺度特征融合网络和自上向下特征融合路径的TTB-SSD(Top to Bottom SSD)改进算法。首先,使用PANet多尺度特征融合网络对特征进行反复提取,从而获得丰富的多尺度语义信息;然后,使用一种深层特征融合模块将浅层特征层的空间信息传递到深层特征层,进而更准确地对小目标进行定位;最后,为了增强浅层特征层的语义信息,构造了自上向下的特征融合路径,从而强化浅层对小目标检测的准确率。实验结果表明,在PASCAL VOC2007测试集检测的mAP(Mean Average Precision)值达到80.5%,对目标的mAP较原始SSD提高了5.7%,证明了该算法对小目标检测的有效性。  相似文献   

12.
针对SSD(Single Shot MultiBox Detector)目标检测算法对小目标检测能力不足的问题,提出一种引入视觉机制和多尺度语义信息融合的VFF-SSD(Vision Feature Fusion SSD)改进算法。为了增大浅层网络的感受野提高特征提取能力,首先在SSD浅层特征层中加入视觉机制,然后利用改进PANet(Path Aggregation Network)多尺度特征融合网络与深层特征增强网络得到新的特征层,旨在增强浅层网络的语义信息并加强深层特征的特征表达能力,最后应用注意力机制模块提高对重要信息的学习能力。实验结果表明,在PASCAL VOC2007测试集检测的mAP(Mean Average Precision)值达到81.1%,对数据集中小目标的mAP值较原SSD提高了6.6%。  相似文献   

13.
为了提高行人属性识别的准确率,提出了一种基于多尺度注意力网络的行人属性识别算法。为了提高算法的特征表达能力和属性判别能力,首先,在残差网络ResNet50的基础上,增加了自顶向下的特征金字塔和注意力模块,自顶向下的特征金字塔由自底向上提取的视觉特征构建;然后,融合特征金字塔中不同尺度的特征,为每层特征的通道注意力赋予不同的权重。最后,改进了模型损失函数以减弱数据不平衡对属性识别率的影响。在RAP和PA-100K数据集上的实验结果表明,与现有算法相比,本算法对行人属性识别的平均精度、准确度、F1性能更好。  相似文献   

14.
针对复杂矿井环境下光照度低、目标尺度变化大、目标间遮挡严重,现有的目标检测网络特征提取困难、检测效果差等问题,提出了改进的S3-YOLOv5s的矿井人员防护设备检测算法。在主干网络中加入无参注意力模块(SimAM),提升网络的特征提取能力;引入尺度均衡特征金字塔卷积,加强多尺度特征融合;最后采用SIoU作为边框回归损失函数并使用K-means++算法进行先验锚框聚类,提高边框检测精度。实验表明,相比现有的YOLOv5s算法,所提算法在所有类别的平均检测精确度从89.64%提升到了92.86%,在复杂矿井环境条件下对人员防护设备有优良的检测能力,验证了所提方法的有效性。  相似文献   

15.
在安全检查过程中快速准确地识别违禁物品有利于维护公共安全。针对X射线行李图像中存在的物品堆叠变形、复杂背景干扰、小尺寸违禁物品检测等问题,提出一种改进模型用于违禁物品检测。改进基于YOLOX模型进行,首先在主干网络中引入注意力机制加强神经网络对违禁品的感知能力;其次在Neck部分改进多尺度特征融合方式,在特征金字塔结构后加入Bottom-up结构,增强网络细节表现能力以此提高对小目标的识别率;最后针对损失函数计算的弊端改进IOU损失的计算方式,并根据违禁物品检测任务特点改进各类损失函数的权重,增大对网络误判的惩罚来优化模型。使用该改进模型在SIXray数据集上进行实验,m AP达到89.72%,FPS到达111.7 frame/s具备快速性和有效性,所提模型与阶段主流模型相比准确率和检测速度都有所提升。  相似文献   

16.
针对乳腺肿瘤大小形态多变、边界模糊以及前景与背景间严重类不平衡的问题,该文提出一种多尺度残差双域注意力融合网络。该网络以多尺度卷积构成的多尺度残差块作为基本搭建模块,通过提取多尺度特征和优化梯度传播通道提高其识别不同尺寸目标的能力,同时融入双域注意力单元,提高网络的边缘识别和边界保持能力。另外该文提出一种混合自适应权重损失函数改善网络优化方向,缓解正负样本极度不均衡的影响。实验结果表明,该文所提方法的平均骰子相似系数(Dice)值达到0.806 3,较U形网络(UNet)提高5.3%,参数量下降73.36%,具有更优的分割性能。  相似文献   

17.
针对复杂道路场景下行人检测精度与速度难以提升的问题,提出一种融合多尺度信息和跨维特征引导的轻量级行人检测算法。首先以高性能检测器YOLOX为基础框架,构建多尺度轻量卷积并嵌入主干网络中,以获取多尺度特征信息。然后设计了一种端到端的轻量特征引导注意力模块,采用跨维通道加权的方式将空间信息与通道信息融合,引导模型关注行人的可视区域。最后为减少模型在轻量化过程中特征信息的损失,使用增大感受野的深度可分离卷积构建特征融合网络。实验结果表明,相比于其他主流检测算法,所提算法在KITTI数据集上达到了71.03%的检测精度和80 FPS的检测速度,在背景复杂、密集遮挡、尺度不一等场景中都具有较好的鲁棒性和实时性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号