首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 359 毫秒
1.
显著目标检测是指通过引入人类视觉注意力机制,使计算机能检测视觉场景中人们最感兴趣的区域或对象.针对显著性目标检测中存在检测边缘不清晰、检测目标不完整及小目标漏检的问题,文中提出基于渐进式嵌套特征的融合网络.网络采用渐进式压缩模块,将较深层特征不断向下传递融合,在降低模型参数量的同时也充分利用高级语义信息.先设计加权特征融合模块,将编码器的多尺度特征聚合成可访问高级信息和低级信息的特征图.再将聚合的特征分配到其它层,充分获取图像上下文信息及关注图像中的小目标对象.同时引入非对称卷积模块,进一步提高检测准确性.在6个公开数据集上的实验表明文中网络取得较优的检测效果.  相似文献   

2.
针对基于检测以及基于密度图两种主流的密集计数方法中,基于检测的方法召回率较低、基于密度图的方法缺失目标物体位置信息的问题,将检测任务与回归任务相结合后提出一种基于密度图回归的检测计数方法,可以实现对密集场景中目标物体的计数以及定位,对两种方法进行优势互补,在提高召回率的同时,实现标定所有目标物体的位置信息。为提取出更加丰富的特征信息以面对复杂的数据场景,网络提出特征金字塔优化模块,该模块纵向融合底层高分辨特征与顶层抽象语义特征,横向融合同尺寸的特征,丰富目标物体的语义表达;考虑到密集计数场景中目标物体所占像素比例较低的问题,提出一种针对小目标的注意力机制,通过对输入图像构建掩膜以增强网络对目标物体的注意力,从而提高网络的检测敏感性。实验结果表明,所提出方法在保持准确率基本不变的情况下,大幅度提高了召回率,同时可准确标定目标物体位置,有效提供输入目标图像的计数以及定位信息,在工业以及生态等各种领域具有广泛的应用前景。  相似文献   

3.
三维视觉理解旨在智能地感知和解释三维场景,实现对物体、环境和动态变化的深入理解与分析。三维目标检测作为其核心技术,发挥着不可或缺的作用。针对当前的三维检测算法对于远距离目标和小目标检测精度较低的问题,提出了一种面向多模态交互式融合与渐进式优化的三维目标检测方法MIFPR。在特征提取阶段,首先引入自适应门控信息融合模块。通过把点云的几何特征融入图像特征中,能够获取对光照变化更有辨别力的图像表示。随后提出基于体素质心的可变形跨模态注意力模块,以驱使图像中丰富的语义特征和上下文信息融合到点云特征中。在目标框优化阶段,提出渐进式注意力模块,通过学习、聚合不同阶段的特征,不断增强模型对于精细化特征的提取与建模能力,逐步优化目标框,以提升对于远距离、小目标的检测精度,进而提高对于视觉场景理解的能力。在KITTI数据集上,所提方法对于Pedestrian和Cyclist等小目标的检测精度较最优基线有明显提升,证实了该方法的有效性。  相似文献   

4.
目的 伪装目标是目标检测领域一类重要研究对象,由于目标与背景融合度较高、视觉边缘性较差、特征信息不足,常规目标检测算法容易出现漏警、虚警,且检测精度不高。针对伪装目标检测的难点,基于YOLOv5(you only look once)算法提出了一种基于多检测层与自适应权重的伪装目标检测算法(algorithm for detecting camouflage targets based on multi-detection layers and adaptive weight,MAH-YOLOv5)。方法 在网络预测头部中增加一个非显著目标检测层,提升网络对于像素占比极低、语义信息不足这类目标的感知能力;在特征提取骨干中融合注意力机制,调节卷积网络对特征信息不足目标的权重配比,使其更关注待检测的伪装目标;在网络训练过程中使用多尺度训练策略,进一步提升模型鲁棒性与泛化能力;定义了用于军事目标检测领域的漏警、虚警指标,并提出伪装目标综合检测指数。结果 实验在课题组采集的伪装数据集上进行训练和验证。结果表明,本文方法在自制数据集上的平均精度均值(mean average precision,...  相似文献   

5.
针对视觉同时定位与地图构建(SLAM)算法的视觉里程计在动态场景中受动态物体干扰致使帧间特征点误匹配,导致相机位姿估计误差大、定位精度低、鲁棒性差等问题,提出一种结合语义信息的视觉里程计动态特征点剔除方法。采用改进的YOLOv5目标检测网络为视觉里程计提供物体的语义信息,然后结合对极几何约束的运动一致性检测算法确定目标检测边界框中的动态物体,从而实现动态特征点的有效剔除,最后,仅利用静态特征完成位姿估计与定位。在TUM数据集上对比实验结果表明,其绝对轨迹误差(ATE)、平移和旋转相对位姿误差(RPE)的均方根误差(RMSE)值与ORB-SLAM2相比分别降低了97.71%、 95.10%和91.97%,验证了所提出的方法显著降低了动态场景下的位姿估计误差,提高了系统的准确性和鲁棒性。  相似文献   

6.
基于局部语义拓扑图的视觉SLAM闭环检测   总被引:1,自引:0,他引:1  
针对视觉SLAM(同步定位与地图创建)中现有的闭环检测方法容易产生假阳性检测的问题,利用YOLOv3目标检测算法获取场景中的语义信息,以DBSCAN(density-based spatial clustering of application with noise)算法修正错误检测和遗漏检测,构建语义节点,对关键帧形成局部语义拓扑图.利用图像特征和目标类别信息进行语义节点匹配,计算不同语义拓扑图中对应边的变换关系,得到关键帧之间的相似度,并根据连续关键帧的相似度变化情况进行闭环的判断.在公开数据集上的实验表明,目标聚类有效地提高了室内场景下的闭环检测准确性.与单纯利用传统视觉特征的算法相比,本文算法能够获得更加准确的闭环检测结果.  相似文献   

7.
随着深度学习的不断发展,目标检测技术逐步从基于传统的手工检测方法向基于深度神经网络的检测方法转变。在众多基于深度学习的目标检测方法中,基于深度学习的单阶段目标检测方法因其网络结构较简单、运行速度较快以及具有更高的检测效率而被广泛运用。但现有的基于深度学习的单阶段目标检测方法由于小目标物体包含的特征信息较少、分辨率较低、背景信息较复杂、细节信息不明显以及定位精度要求较高等原因,导致在检测过程中对小目标物体的检测效果不理想,使得模型检测精度降低。针对目前基于深度学习的单阶段目标检测方法存在的问题,研究了大量基于深度学习的单阶段小目标检测技术。首先从单阶段目标检测方法的AnchorBox、网络结构、交并比函数以及损失函数等几个方面,系统地总结了针对小目标检测的优化方法;其次列举了常用的小目标检测数据集及其应用领域,并给出在各小目标检测数据集上的检测结果图;最后探讨了基于深度学习的单阶段小目标检测方法的未来研究方向。  相似文献   

8.
小目标因浅层特征语义不足而深层特征信息缺失导致极难检测,而无人机视角场景复杂,检测难度进一步增大。普遍提升小目标检测精度的方法是进行不同层级的特征融合,但这会导致特征高冗余问题,并非所有特征层都值得被激活传递到后方的数据预测中去。针对上述问题对CenterNet进行改造,首次将其与自适应特征激活相结合,提出自适应基础模块(MSA),抑制冗余特征的表达;在主干输出处引入升维全局上下文注意力模块(GC-Block),强化关键点语义信息;用深度可分离卷积与Mish激活搭建高质量解码块(DW),在不增加模型复杂度的情况下提升解码精度。在公开的无人机捕获小目标数据集上进行对比实验,改进算法的AP较原始算法提升了2.2个百分点,召回率提升了2.4个百分点,验证了改进算法对小目标检测任务的有效性。  相似文献   

9.
目标检测是计算机视觉方向的热点领域,其通常需要大量的标注图像用于模型训练,这将花费大量的人力和物力来实现。同时,由于真实世界中的数据存在固有的长尾分布,大部分对象的样本数量都比较稀少,比如众多非常见疾病等,很难获得大量的标注图像。小样本目标检测只需要提供少量的标注信息,就能够检测出感兴趣的对象,对小样本目标检测方法做了详细综述。首先回顾了通用目标检测的发展及其存在的问题,从而引出小样本目标检测的概念,对同小样本目标检测相关的其他任务做了区分阐述。之后介绍了现有小样本目标检测基于迁移学习和基于元学习的两种经典范式。根据不同方法的改进策略,将小样本目标检测分为基于注意力机制、图卷积神经网络、度量学习和数据增强四种类型,对这些方法中使用到的公开数据集和评估指标进行了说明,对比分析了不同方法的优缺点、适用场景以及在不同数据集上的性能表现。最后讨论了小样本目标检测的实际应用领域和未来的研究趋势。  相似文献   

10.
交通标志检测在自动驾驶、辅助驾驶等领域是一个重要的环节,关乎到行车安全问题。针对交通标志中存在目标小、背景复杂等难点,提出一种基于改进YOLOv5的算法。提出区域上下文模块,利用多种扩张率的空洞卷积来获取不同感受野,进而获取到目标及其相邻区域的特征信息,相邻区域的信息对交通标志小目标检测起到重要补充作用,可以有效解决目标小的问题;在主干部分引入特征增强模块,进一步提高主干的特征提取能力,利用注意力机制与原C3模块结合,使网络更能聚焦小目标信息,避免复杂背景的干扰;在多尺度检测部分,将浅层特征层与深层检测层进行特征融合,可以同时兼顾浅层位置信息与深层语义信息,增加目标定位与边界回归的准确度,更有利于小目标检测。实验结果表明,改进后的算法在交通标志检测数据集TT100K上取得了87.2%的小目标检测精度、92.4%的小目标召回率以及91.8%的mAP,与原YOLOv5算法相比较,分别提升了3.5、4.1、2.6个百分点,检测速度83.3 frame/s;在CCTSDB数据集上mAP为98.0%,提升了2.0个百分点,检测速度90.9 frame/s。因此,提出的改进YOLOv5算法可以有效...  相似文献   

11.
针对遥感图像中感兴趣目标特征不明显、背景信息复杂、小目标居多导致的目标检测精度较低的问题,本文提出了一种改进YOLOv5s的遥感图像目标检测算法(Swin-YOLOv5s)。首先,在骨干特征提取网络的卷积块中加入轻量级通道注意力结构,抑制无关信息的干扰;其次,在多尺度特征融合的基础上进行跨尺度连接和上下文信息加权操作来加强待检测目标的特征提取,将融合后的特征图组成新的特征金字塔;最后,在特征融合的过程中引入Swin Transformer网络结构和坐标注意力机制,进一步增强小目标的语义信息和全局感知能力。将本文提出的算法在DOTA数据集和RSOD数据集上进行消融实验,结果表明,本文提出的算法能够明显提高遥感图像目标检测的平均准确率。  相似文献   

12.
目的 视频目标检测旨在序列图像中定位运动目标,并为各个目标分配指定的类别标签。视频目标检测存在目标模糊和多目标遮挡等问题,现有的大部分视频目标检测方法是在静态图像目标检测的基础上,通过考虑时空一致性来提高运动目标检测的准确率,但由于运动目标存在遮挡、模糊等现象,目前视频目标检测的鲁棒性不高。为此,本文提出了一种单阶段多框检测(single shot multibox detector,SSD)与时空特征融合的视频目标检测模型。方法 在单阶段目标检测的SSD模型框架下,利用光流网络估计当前帧与近邻帧之间的光流场,结合多个近邻帧的特征对当前帧的特征进行运动补偿,并利用特征金字塔网络提取多尺度特征用于检测不同尺寸的目标,最后通过高低层特征融合增强低层特征的语义信息。结果 实验结果表明,本文模型在ImageNet VID (Imagelvet for video object detetion)数据集上的mAP (mean average precision)为72.0%,相对于TCN (temporal convolutional networks)模型、TPN+LSTM (tubelet proposal network and long short term memory network)模型和SSD+孪生网络模型,分别提高了24.5%、3.6%和2.5%,在不同结构网络模型上的分离实验进一步验证了本文模型的有效性。结论 本文模型利用视频特有的时间相关性和空间相关性,通过时空特征融合提高了视频目标检测的准确率,较好地解决了视频目标检测中目标漏检和误检的问题。  相似文献   

13.
目的 现有的显著对象检测模型能够很好地定位显著对象,但是在获得完整均匀的对象和保留清晰边缘的任务上存在不足。为了得到整体均匀和边缘清晰的显著对象,本文提出了结合语义辅助和边缘特征的显著对象检测模型。方法 模型利用设计的语义辅助特征融合模块优化骨干网的侧向输出特征,每层特征通过语义辅助选择性融合相邻的低层特征,获得足够的结构信息并增强显著区域的特征强度,进而检测出整体均匀的显著对象。通过设计的边缘分支网络以及显著对象特征得到精确的边缘特征,将边缘特征融合到显著对象特征中,加强特征中显著对象边缘区域的可区分性,以便检测出清晰的边缘。同时,本文设计了一个双向多尺度模块来提取网络中的多尺度信息。结果 在4种常用的数据集ECSSD (extended complex scene saliency dataset)、DUT-O (Dalian University of Technology and OMRON Corporation)、HKU-IS和DUTS上与12种较流行的显著模型进行比较,本文模型的最大F值度量(max F-measure,MaxF)和平均绝对误差(mean absolution error,MAE)分别是0.940、0.795、0.929、0.870和0.041、0.057、0.034、0.043。从实验结果看,本文方法得到的显著图更接近真值图,在MaxF和MAE上取得最佳性能的次数多于其他12种方法。结论 本文提出的结合语义辅助和边缘特征的显著对象检测模型十分有效。语义辅助特征融合和边缘特征的引入使检测出的显著对象更为完整均匀,对象的边缘区分性也更强,多尺度特征提取进一步改善了显著对象的检测效果。  相似文献   

14.
基于无锚点的单阶段全卷积目标检测算法(FCOS)无需生成大量的锚点避免了样本不平衡问题,但FCOS可能更适应于某一特定场景。为了增强特征融合,并提高目标检测的准确性,提出了全卷积目标检测算法FCOS的改进算法ConFCOS。该算法设计了一个增强的特征金字塔网络,引入带有全局上下文信息的注意力模块和空洞卷积模块,以减少特征融合过程中的信息衰减。另外,构建了一个级联检测头来检测对象,对检测的边界框进行细化来提高分类和回归的置信度。此外,针对提出的ConFCOS的损失函数进行了优化以提高目标检测的准确率。在COCO数据集上进行的实验表明,ConFCOS的准确度比FCOS提高了1.6个百分点。  相似文献   

15.
有效特征的提取和高效使用是显著性物体检测中极具挑战的任务之一。普通卷积神经网络很难兼顾提取有效特征和高效使用这些特征。本文提出双向消息链路卷积网络(bidirectional message link convolution network,BML-CNN)模型,提取和融合有效特征信息用于显著性物体检测。首先,利用注意力机制引导特征提取模块提取实体有效特征,并以渐进方式选择整合多层次之间的上下文信息。然后使用带有跳过连接结构的网络与带门控函数的消息传递链路组成的双向信息链路,将高层语义信息与浅层轮廓信息相融合。最后,使用多尺度融合策略,编码多层有效卷积特征,以生成最终显著图。实验表明,BML-CNN在不同指标下均获得最好的表现。  相似文献   

16.
伪装目标检测(COD)旨在精确且高效地检测出与背景高度相似的伪装物体, 其方法可为物种保护、医学病患检测和军事监测等领域提供助力, 具有较高的实用价值. 近年来, 采用深度学习方法进行伪装目标检测成为一个比较新兴的研究方向. 但现有大多数COD算法都是以卷积神经网络(CNN)作为特征提取网络, 并且在结合多层次特征时, 忽略了特征表示和融合方法对检测性能的影响. 针对基于卷积神经网络的伪装目标检测模型对被检测目标的全局特征提取能力较弱问题, 提出一种基于Transformer的跨尺度交互学习伪装目标检测方法. 该模型首先提出了双分支特征融合模块, 将经过迭代注意力的特征进行融合, 更好地融合高低层特征; 其次引入了多尺度全局上下文信息模块, 充分联系上下文信息增强特征; 最后提出了多通道池化模块, 能够聚焦被检测物体的局部信息, 提高伪装目标检测准确率. 在CHAMELEON、CAMO以及COD10K数据集上的实验结果表明, 与当前主流的伪装物体检测算法相比较, 该方法生成的预测图更加清晰, 伪装目标检测模型能取得更高精度.  相似文献   

17.
当前目标检测算法对小目标检测存在特征信息易丢失的问题,利用网络处理高分辨率特征图数据可以缓解,但存在语义信息不足和计算负担大的缺点。为弥补这些缺点,提出一种有效处理高分辨率特征图、多深度子网并行连接的特征提取网络。构建输入图像金字塔,搭建多深度分支子网并行连接的结构,使用浅层网络处理图像金字塔中高分辨率特征图,深层网络处理低分辨率特征图,多分支同时运行并在中间位置进行两次特征融合,充分结合高分辨率特征信息和低分辨率语义信息;使用融合因子构建对小目标针对性强的多尺度特征融合结构,增强对小目标检测能力;使用注意力机制进一步提高特征提取能力。在公开数据集AI-TOD上进行实验表明,所设计的特征提取网络相较于其他常用特征提取网络对小目标的检测能力更强,在two-stage经典模型Faster-RCNN、one-stage经典模型SSD、YOLOv3以及anchor-free经典模型CenterNet上替换上原主干网络,检测平均精度mAP与原来相比分别提升了2.7、3.4、3.3、1.7个百分点,证明了所提网络结构的适用性和有效性。  相似文献   

18.
目的 在基于深度学习的目标检测模型中,浅层特征图包含更多细节但缺乏语义信息,深层特征图则相反,为了利用不同深度特征图的优势,并在此基础上解决检测目标的多尺度问题,本文提出基于卷积核金字塔和空洞卷积的单阶段目标检测模型。方法 所提模型采用多种方式融合特征信息,先使用逐像素相加方式融合多层不同大小的特征图信息,然后在通道维度拼接不同阶段的特征图,形成具有丰富语义信息和细节信息的信息融合特征层作为模型的预测层。模型在锚框机制中引入卷积核金字塔结构,以解决检测目标的多尺度问题,采用空洞卷积减少大尺寸卷积核增加的参数量,合理地降低锚框数量。结果 实验结果表明,在PASCAL VOC2007测试数据集上,所提检测框架在300×300像素的输入上检测精度达到79.3% mAP(mean average precision),比SSD(single shot multibox detector)高1.8%,比DSSD(deconvolutional single shot detector)高0.9%。在UCAS-AOD遥感数据测试集上,所提模型的检测精度分别比SSD和DSSD高2.8%和1.9%。在检测速度上,所提模型在Titan X GPU上达到21帧/s,速度超过DSSD。结论 本文模型提出在两个阶段融合特征信息并改进锚框机制,不仅具有较快的检测速度和较高的精度,而且较好地解决了小目标以及重叠目标难以被检出的问题。  相似文献   

19.
目的 全卷积模型的显著性目标检测大多通过不同层次特征的聚合实现检测,如何更好地提取和聚合特征是一个研究难点。常用的多层次特征融合策略有加法和级联法,但是这些方法忽略了不同卷积层的感受野大小以及产生的特征图对最后显著图的贡献差异等问题。为此,本文结合通道注意力机制和空间注意力机制有选择地逐步聚合深层和浅层的特征信息,更好地处理不同层次特征的传递和聚合,提出了新的显著性检测模型AGNet(attention-guided network),综合利用几种注意力机制对不同特征信息加权解决上述问题。方法 该网络主要由特征提取模块(feature extraction module, FEM)、通道—空间注意力融合模块(channel-spatial attention aggregation module, C-SAAM)和注意力残差细化模块(attention residual refinement module,ARRM)组成,并且通过最小化像素位置感知(pixel position aware, PPA)损失训练网络。其中,C-SAAM旨在有选择地聚合浅层的边缘信息以及深层抽象的语义特征,利用通道注意力和空间注意力避免融合冗余的背景信息对显著性映射造成影响;ARRM进一步细化融合后的输出,并增强下一个阶段的输入。结果 在5个公开数据集上的实验表明,AGNet在多个评价指标上达到最优性能。尤其在DUT-OMRON(Dalian University of Technology-OMRON)数据集上,F-measure指标相比于排名第2的显著性检测模型提高了1.9%,MAE(mean absolute error)指标降低了1.9%。同时,网络具有不错的速度表现,达到实时效果。结论 本文提出的显著性检测模型能够准确地分割出显著目标区域,并提供清晰的局部细节。  相似文献   

20.
由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征实现多模态特征的深度融合;为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。在大型公开数据集PubLayNet上的实验结果表明,该方法的检测精度为95.86%,与其他检测方法相比有更高的准确率。该方法不仅实现了多模态特征的深度融合,还丰富了融合的多模态特征信息,具有良好的检测性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号