首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 328 毫秒
1.
显著目标检测是指通过引入人类视觉注意力机制,使计算机能检测视觉场景中人们最感兴趣的区域或对象.针对显著性目标检测中存在检测边缘不清晰、检测目标不完整及小目标漏检的问题,文中提出基于渐进式嵌套特征的融合网络.网络采用渐进式压缩模块,将较深层特征不断向下传递融合,在降低模型参数量的同时也充分利用高级语义信息.先设计加权特征融合模块,将编码器的多尺度特征聚合成可访问高级信息和低级信息的特征图.再将聚合的特征分配到其它层,充分获取图像上下文信息及关注图像中的小目标对象.同时引入非对称卷积模块,进一步提高检测准确性.在6个公开数据集上的实验表明文中网络取得较优的检测效果.  相似文献   

2.
随着计算机视觉技术的发展,基于点云的三维目标检测算法被广泛应用于自动驾驶、机器人控制等领域。针对点云稀疏条件下基于点云三维目标检测算法鲁棒性较差、检测精度低的问题,提出基于稀疏Transformer的三维目标检测算法。在注意力矩阵生成阶段,通过稀疏Transformer模块显式选择Top-t个权重元素,以保留有利于特征提取的权重元素,在降低环境噪点对鲁棒性影响的同时加快Transformer模块的运行速度。在回归阶段,将基于空间特征粗回归模块生成的边界框作为检测头模块的初始锚框,用于后续边界框的精细回归操作。设计基于体素的三维目标检测算法的损失函数,以精确地衡量类别损失、位置回归损失和方向损失。在KITTI数据集上的实验结果表明,相比PointPillars算法,该算法的平均精度均值提高3.46%,能有效提高点云三维目标的检测精度且具有较优的鲁棒性。相比原始Transformer模块,所提稀疏Transformer模块在点云图像上的平均运行速度加快了约0.54 frame/s。  相似文献   

3.
于敏  屈丹  司念文 《计算机工程》2022,48(8):249-257
针对经典一阶段目标检测算法RetinaNet难以充分提取不同阶段特征、边界框回归不够准确等问题,提出一个面向目标检测的改进型RetinaNet算法。在特征提取模块中加入多光谱通道注意力,将输入特征中的频率分量合并到注意力处理中,从而捕获特征原有的丰富信息。将多尺度特征融合模块添加到特征提取模块,多尺度特征融合模块包括1个路径聚合模块和1个特征融合操作,路径聚合模块通过搭建自底向上的路径,利用较浅特征层上精确的定位信号增强整个特征金字塔的信息流,特征融合操作通过融合来自每个阶段的特征信息优化多阶段特征的融合效果。此外,在边界框回归过程中引入完全交并比损失函数,从边界框的重叠面积、中心点距离和长宽比这3个重要的几何因素出发,提升回归过程的收敛速度与准确性。在MS COCO数据集和PASCAL VOC数据集上的实验结果表明,与RetinaNet算法相比,改进型RetinaNet算法在2个数据集上的平均精度分别提高了2.1、1.1个百分点,尤其对于MS COCO数据集中较大目标的检测,检测精度的提升效果更加显著。  相似文献   

4.
目的 三维多目标跟踪是一项极具挑战性的任务,图像和点云的多模态融合能够提升多目标跟踪性能,但由于场景的复杂性以及多模态数据类型的不同,融合的充分性和关联的鲁棒性仍是亟待解决的问题。因此,提出图像与点云多重信息感知关联的三维多目标跟踪方法。方法 首先,提出混合软注意力模块,采用通道分离技术对图像语义特征进行增强,更好地实现通道和空间注意力之间的信息交互。然后,提出语义特征引导的多模态融合网络,将点云特征、图像特征以及逐点图像特征进行深度自适应持续融合,抑制不同模态的干扰信息,提高网络对远距离小目标以及被遮挡目标的跟踪效果。最后,构建多重信息感知亲和矩阵,利用交并比、欧氏距离、外观信息和方向相似性等多重信息进行数据关联,增加轨迹和检测的匹配率,提升跟踪性能。结果 在KITTI和NuScenes两个基准数据集上进行评估并与较先进跟踪方法进行对比。KITTI数据集上,HOTA(higher order tracking accuracy)和MOTA(multi-object tracking accuracy)指标分别达到76.94%和88.12%,相比于对比方法中性能最好的模型,分别提升1....  相似文献   

5.
基于深度学习的遥感图像目标检测方法通常难以排除复杂场景下的背景干扰,从而导致检测精度低。为解决该问题,设计了一种基于尺度分层的特征金字塔结构,并提出了一种基于距离约束的中心回归(distance-constraints centerness,DCCN),从而形成了基于距离约束的改进FCOS遥感图像检测方法。基于尺度分层的特征金字塔结构包括高层语义信息激活模块和低层有效特征感知模块,其中高层语义信息模块重构了特征融合阶段对高层特征图的处理方式,提升了特征金字塔顶部区域的语义感知能力,低层有效特征感知模块通过引入通道注意力机制,增强了通道间的信息交互能力。DCCN能够利用预测样本框与真实样本框之间的距离因素作为回归评估条件,提升了预测框的回归效果。在NWPU VHR-10数据集的实验中,该方法的精度达到92.6%,相比于原FCOS方法提升了4.9个百分点,有效改善了遥感图像检测的精度。  相似文献   

6.
为应对泵站场景下设备和人员之间目标被遮挡及远距离小目标对泵站重点区域安全帽佩戴自动监管带来的挑战,提出了一种融合注意力机制和跨尺度特征融合的安全帽佩戴检测算法,以克服在远距离、有遮挡场景下安全帽检测准确度低的问题。通过采集泵站监控视频数据构建泵站场景安全帽数据集,在特征提取网络中加入注意力机制模块,使得模型更关注于小目标的通道信息;同时增加检测层使得特征融合时能结合多级特征,并使用柔和非极大值抑制(Soft Non-Manimum Suppression, Soft-NMS)和完全交并比(Complete Intersection over Union, CIoU)算法进行改进以减少遮挡目标漏检情况。在自建数据集进行试验,结果表明改进后的算法平均准确率达到93.5%,与其他目标检测算法相比精度均有所提升,证明该方法在泵站重点区域场景安全帽检测任务中具有良好的性能。  相似文献   

7.
使用图像信息补充三维点云的几何和纹理信息,可以对三维物体进行有效地检测与分类。为了能够更好地将图像特征融入点云,设计了一个端到端的深度神经网络,提出了一个新颖的融合模块PI-Fusion(point cloud and image fusion),使用图像特征以逐点融合的方式来增强点云的语义信息。另外,在点云下采样的过程中,使用距离最远点采样和特征最远点采样的融合采样方式,以在小目标上采样到更多的点。经过融合图像和点云特征的三次下采样之后,通过一个候选点生成层将点移动到目标物体的中心。最后,通过一个单阶段目标检测头,得出分类置信度和回归框。在公开数据集KITTI的实验表明,与3DSSD相比,此方法在简单、中等、困难难度的检测上分别提升了3.37、1.92、1.58个百分点。  相似文献   

8.
针对驾驶场景中目标检测卷积神经网络模型检测精度较低的问题,提出一种基于改进RefineDet网络结构的多尺度特征融合目标检测方法。在RefineDet网络结构中嵌入LFIP(Light-weight Featurized Image Pyramid,轻量级特征化的图像金字塔)网络,将LFIP网络生成的多尺度特征图与RefineDet中的ARM(Anchor Refinement Module,锚点框修正模块)输出的主特征图相融合,提升特征层中锚点框初步分类和回归的输出效果,为ODM(Object Detection Module,目标检测模块)模块提供修正的锚点框以便于进一步回归和多类别预测;在RefineDet网络结构中的ODM之后嵌入多分支结构RFB(Receptive Field Block,感受野模块),在检测任务中获得不同尺度的感受野以改善主干网络中提取的特征。将模型中的激活函数替换为带有可学习参数的非线性激活函数PReLU(Parametric Rectified Linear Unit,参数化修正线性单元),加快网络模型的收敛速度;将RefineDet的边界框回归损失函数替换为排斥力损失函数Repulsion Loss,使目标检测中的某预测框更靠近其对应的目标框,并使该预测框远离附近的目标框及预测框,可以提升遮挡情况下目标检测的精度;构建驾驶视觉下的目标检测数据集,共计48 260张,其中38 608张作为训练集,9 652张作为测试集,并在主流的GPU硬件平台进行验证。该方法的mAP为85.59%,优于RefineDet及其他改进算法;FPS为41.7 frame/s,满足驾驶场景目标检测的应用要求。实验结果表明,该方法在检测速度略微下降的情况,能够较好地提升驾驶视觉下的目标检测的精确度,并能够一定程度上解决驾驶视觉下的遮挡目标检测和小目标检测的问题。  相似文献   

9.
针对RetinaNet在遥感目标检测任务中多尺度、密集小目标问题,提出了ACFEM-RetinaNet遥感目标检测算法。针对原主干特征提取不充分的问题,采用Swin Transformer作为主干网络,以提升算法的特征提取能力,提高检测精度。针对遥感图像多尺度问题,提出自适应上下文特征提取模块,使用SK注意力引导不同空洞率的可变形卷积自适应调整感受野、提取上下文特征,改善多尺度目标检测效果。针对遥感图像中密集小目标问题,引入FreeAnchor模块,从极大释然估计的角度设计优化锚框匹配策略,提高检测精度。实验结果表明,在公共遥感图像目标检测数据集RSOD上,ACFEM-RetinaNet算法取得了91.1%的检测精度,相较于原算法提高了4.6个百分点,能更好地应用于遥感图像目标检测。  相似文献   

10.
无人机视角的小目标图像具有目标分布密集、类别不均衡以及特征不明显的特点,导致目标检测任务中出现漏检、误检的问题。针对这些问题,提出一种改进YOLOv5s小目标检测方法,以达到提高目标检测准确率与精确度的目的。重新聚类锚框,更精确地锁定检测区域。更改骨干网络结构,在空间金字塔池化层增加卷积,保证充分获取检测目标特征。同时,将网络结构中的C3模块替换成融合通道注意力机制的轻量级SEC2f模块,以提升网络对于小目标检测的局部特征捕获能力。融合解耦检测头,结合自适应锚框计算,有效提取目标区域的特征。在相同参数、相同环境条件下,在DOTA数据集上和VisDrone数据集上检测精度分别提升6.1%、5.2%,表明改进方法在小目标检测任务上的有效性;在公开数据集voc2007+2012上做通用性对比实验,结果表明改进算法具有通用性。  相似文献   

11.
激光雷达点云3D物体检测,对于小物体如行人、自行车的检测精度较低,容易漏检误检,提出一种多尺度Transformer激光雷达点云3D物体检测方法MSPT-RCNN(multi-scale point transformer-RCNN),提高点云3D物体检测精度.该方法包含两个阶段,即第一阶段(RPN)和第二阶段(RCN...  相似文献   

12.
莫宏伟  田朋 《控制与决策》2021,36(12):2881-2890
视觉场景理解包括检测和识别物体、推理被检测物体之间的视觉关系以及使用语句描述图像区域.为了实现对场景图像更全面、更准确的理解,将物体检测、视觉关系检测和图像描述视为场景理解中3种不同语义层次的视觉任务,提出一种基于多层语义特征的图像理解模型,并将这3种不同语义层进行相互连接以共同解决场景理解任务.该模型通过一个信息传递图将物体、关系短语和图像描述的语义特征同时进行迭代和更新,更新后的语义特征被用于分类物体和视觉关系、生成场景图和描述,并引入融合注意力机制以提升描述的准确性.在视觉基因组和COCO数据集上的实验结果表明,所提出的方法在场景图生成和图像描述任务上拥有比现有方法更好的性能.  相似文献   

13.
Tian  Peng  Mo  Hongwei  Jiang  Laihao 《Applied Intelligence》2021,51(11):7781-7793

Understanding scene image includes detecting and recognizing objects, estimating the interaction relationships of the detected objects, and describing image regions with sentences. However, since the complexity and variety of scene image, existing methods take object detection or vision relationship estimate as the research targets in scene understanding, and the obtained results are not satisfactory. In this work, we propose a Multi-level Semantic Tasks Generation Network (MSTG) to leverage mutual connections across object detection, visual relationship detection and image captioning, to solve jointly and improve the accuracy of the three vision tasks and achieve the more comprehensive and accurate understanding of scene image. The model uses a message pass graph to mutual connections and iterative updates across the different semantic features to improve the accuracy of scene graph generation, and introduces a fused attention mechanism to improve the accuracy of image captioning while using the mutual connections and refines of different semantic features to improve the accuracy of object detection and scene graph generation. Experiments on Visual Genome and COCO datasets indicate that the proposed method can jointly learn the three vision tasks to improve the accuracy of those visual tasks generation.

  相似文献   

14.
在自动驾驶领域,计算机对周围环境的感知和理解是必不可少的.其中,相比于二维目标检测,三维点云目标检测可以提供二维目标检测所不具有的物体的三维方位信息,这对于安全自动驾驶是至关重要的.针对三维目标检测中原始输入点云到检测结果之间跨度大的问题,首先,提出了基于结构感知的候选区域生成模块,其中定义了每个点的结构特征,充分利用了三维点云目标检测数据集提供的监督信息,通过预测该特征,网络可以学习到更具有鉴别能力的特征,从而提高候选框的生成质量;其次,将该特征加入到候选框微调阶段中,使得点云上下文特征和局部特征更加丰富.在三维点云目标检测数据集进行了实验,结果表明,文中方法能够在增加极少计算量的前提下,在候选区域生成阶段使用50个候选框0.7的IoU阈值下,提高超过13%的召回率;在候选框微调阶段,3种难度目标框的检测效果均有明显提升,表明了该方法对三维点云目标检测的有效性.  相似文献   

15.
为了进一步降低目标检测出现的误检率,提出了一种基于传感器数据特征的融合目标检测算法。首先,为了减少部分离群噪声点对点云表达准确性的影响,采用统计滤波器对激光雷达原始点云进行滤波处理;其次,为了解决点云地面分割在坡度变化时,固定阈值会导致分割不理想的问题,提出了自适应坡度阈值的地面分割算法;然后,建立KD(k-dimensional)树索引,加速DBSCAN(density-based spatial clustering of applications with noise)点云聚类,基于Andrew最小凸包算法,拟合最小边界矩形,生成目标三维边界框,完成聚类后的目标点云位姿估计;最后,将激光雷达检测到的三维目标点云投影到图像上,投影边界框与图像检测的目标边界框通过IoU关联匹配,提出基于决策级的三维激光雷达与视觉图像信息融合算法。使用KITTI数据集进行的测试实验表明,提出的点云聚类平均耗时降低至173 ms,相比传统的欧氏距离聚类,准确性提升6%。搭建硬件实验平台,基于实测数据的实验结果表明,提出的融合算法在目标误检率上比YOLO v4网络降低了约10%。  相似文献   

16.
针对遥感图像中感兴趣目标特征不明显、背景信息复杂、小目标居多导致的目标检测精度较低的问题,本文提出了一种改进YOLOv5s的遥感图像目标检测算法(Swin-YOLOv5s)。首先,在骨干特征提取网络的卷积块中加入轻量级通道注意力结构,抑制无关信息的干扰;其次,在多尺度特征融合的基础上进行跨尺度连接和上下文信息加权操作来加强待检测目标的特征提取,将融合后的特征图组成新的特征金字塔;最后,在特征融合的过程中引入Swin Transformer网络结构和坐标注意力机制,进一步增强小目标的语义信息和全局感知能力。将本文提出的算法在DOTA数据集和RSOD数据集上进行消融实验,结果表明,本文提出的算法能够明显提高遥感图像目标检测的平均准确率。  相似文献   

17.
目的 全卷积模型的显著性目标检测大多通过不同层次特征的聚合实现检测,如何更好地提取和聚合特征是一个研究难点。常用的多层次特征融合策略有加法和级联法,但是这些方法忽略了不同卷积层的感受野大小以及产生的特征图对最后显著图的贡献差异等问题。为此,本文结合通道注意力机制和空间注意力机制有选择地逐步聚合深层和浅层的特征信息,更好地处理不同层次特征的传递和聚合,提出了新的显著性检测模型AGNet(attention-guided network),综合利用几种注意力机制对不同特征信息加权解决上述问题。方法 该网络主要由特征提取模块(feature extraction module, FEM)、通道—空间注意力融合模块(channel-spatial attention aggregation module, C-SAAM)和注意力残差细化模块(attention residual refinement module,ARRM)组成,并且通过最小化像素位置感知(pixel position aware, PPA)损失训练网络。其中,C-SAAM旨在有选择地聚合浅层的边缘信息以及深层抽象的语义特征,利用通道注意力和空间注意力避免融合冗余的背景信息对显著性映射造成影响;ARRM进一步细化融合后的输出,并增强下一个阶段的输入。结果 在5个公开数据集上的实验表明,AGNet在多个评价指标上达到最优性能。尤其在DUT-OMRON(Dalian University of Technology-OMRON)数据集上,F-measure指标相比于排名第2的显著性检测模型提高了1.9%,MAE(mean absolute error)指标降低了1.9%。同时,网络具有不错的速度表现,达到实时效果。结论 本文提出的显著性检测模型能够准确地分割出显著目标区域,并提供清晰的局部细节。  相似文献   

18.
针对机械臂抓取检测任务中对未知物体抓取位姿检测精度低、耗时长等问题,提出一种融入注意力机制多模特征抓取位姿检测网络.首先,设计多模态特征融合模块,在融合多模态特征同时对其赋权加强;然后,针对较浅层残差网络提取重点特征能力较弱的问题,引入卷积注意力模块,进一步提升网络特征提取能力;最后,通过全连接层对提取特征直接进行回归拟合,得到最优抓取检测位姿.实验结果表明,在Cornell公开抓取数据集上,所提出算法的图像拆分检测精度为98.9%,对象拆分检测精度为98.7%,检测速度为51FPS,对10类物体的100次真实抓取实验中,成功率为95%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号