首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
王一婷  张柯  李捷  郝宗波  段昶  朱策 《计算机应用》2020,40(12):3520-3525
近年来,深度学习在物体检测方面取得了非常好的效果和突飞猛进的发展,但在某些特殊场景下,如要求同时检测尺度相差极大的目标物体(相差大于100倍)时,现有的物体识别方法的性能急剧下降。针对同一场景下超大尺度差异物体识别与定位问题,对YOLOv3框架进行了改进,结合图像金字塔技术来提取图像的多尺度特征;并在训练过程中,针对不同尺度的目标提出采用动态交并比(IoU)的策略,此策略可以更好地解决样本不均衡的问题。实验结果表明,该模型对同一场景下超大超小物体的识别能力有了明显的提升。将之应用于机场环境,取得了较好的应用效果。  相似文献   

2.
汪虹余  张彧  杨恒  穆楠 《计算机应用》2021,41(10):2970-2978
近年来,显著性目标检测受到工业界和学术界的大量关注,成为了计算机视觉领域中一项重要的基础研究,该问题的解决有助于各类视觉任务取得突破性进展。尽管针对可见光场景的显著性检测工作已经取得了有效成果,但如何在信噪比偏低、可用有效信息匮乏的弱光图像中提取边界清晰、内部结构准确的显著性目标,仍然是具有挑战性的难题。针对弱光场景下显著性目标检测存在边界模糊、结构不完整等造成准确率较低的问题,提出基于蚁群优化(ACO)算法的显著性检测模型。首先,通过多尺度超像素分割将输入图像转换为具有不同节点的无向图;其次,基于最优特征选择策略来更充分地获取低对比度弱光图像中所包含的更多显著目标的特征信息,并摒弃冗余的噪声信息;然后,引入空间对比度策略用于探索弱光图像中具有相对较高对比度的全局显著性线索。而为了在低信噪比情况下也能获取准确的显著性估计,利用ACO算法对显著图进行优化。通过在3个公共数据集(MSRA、CSSD和PASCAL-S)以及夜间弱光图像(NI)数据集上进行实验,可以看出,所提模型在3个公共数据集上的曲线下面积(AUC)值分别达到了87.47%、84.27%和81.58%,在NI数据集上的AUC值比排名第2的低秩矩阵恢复(LR)模型提高了2.17个百分点。实验结果表明,相较于11种主流的显著性检测模型,所提模型具有结构更准确且边界更清晰的检测效果,有效抑制了弱光场景对显著性目标检测性能的干扰。  相似文献   

3.
李明  鹿朋  朱龙  朱美强  邹亮 《控制与决策》2023,38(10):2867-2874
针对当前抓取检测模型对密集遮挡物体的检测效果差以及人工数据标注工作量大的问题,提出基于RGB-D图像融合的目标检测与抓取检测分步骤进行的改进方案.新方案支持将单物体图像训练的抓取检测模型直接应用于密集遮挡的多物体图像场景中.首先,考虑到密集遮挡场景下抓取物具有多尺度的特点,提出子阶段路径聚合(SPA)的多尺度特征融合模块,用于丰富RGB-D特征级别融合的目标检测模型SPA-YOLO-Fusion的高维语义特征信息,以便于检测模型定位所有的抓取物;其次,使用基于RGB-D像素级别融合的GR-ConvNet抓取检测模型估计每个物体的抓取点,并提出背景填充的图像预处理算法来降低密集遮挡物体的相互影响;最后,使用机械臂对目标点进行抓取.在LineMOD数据集上对目标检测模型进行测试,实验结果表明SPA-YOLO-Fusion的mAP比YOLOv3-tiny与YOLOv4-tiny分别提高了10%与7%.从实际场景中采集图像制作YODO_Grasp抓取检测数据集并进行测试,结果表明增加背景填充预处理算法的GR-ConvNet的抓取检测精度比原模型提高了23%.  相似文献   

4.
随着目标识别应用场景的扩展和深入,其面临的场景愈加复杂,为相关的识别技术设计提供了挑战。在针对杂乱场景下,本文提出一种基于引用和目标图像之间的点对应来检测特定对象的算法,通过给定对象的引用图像来检测杂乱场景中的特定对象。本算法针对不同物体的规模变化或平面旋转特点,提取特征描述符并查找假定的点匹配,并在特定场景中定位目标对象。本算法对少量的平面外旋转和遮挡也有很强的鲁棒性。  相似文献   

5.
史梦安  陆振宇 《计算机应用》2005,40(12):3679-3686
针对多类别目标检测在特定场景中数据样本有限的情况,为进一步提高机器人系统中轻量级神经网络对小型物体识别的准确率和稳定性,提出了一种基于机器人操作系统(ROS)的目标状态识别模块。首先,考虑到嵌入式设备的算力限制,目标识别模型采用轻量级的网络YOLO-tiny作为主要架构,并在YOLO-tiny中引入RFB,提出了YOLO-tiny-RFB模型。随后,基于MobileNet对旋钮开关的多种状态实现精准分类。最后,设计数据关联规则,通过图像配准及交并比(IOU)计算等算法使识别模块完成同一场景多次识别结果的融合,从而使用户能够对不同时刻各表计的状态进行追踪。实验结果表明,相较于YOLO-tiny,YOLO-tiny-RFB模型在少量增加模型计算量的情况下,在构建的电站仪器识别数据集上,其目标识别平均精度均值(mAP)提升了17.9%,达到了82.4%。在旋钮数据分布极端不均衡的情况下,通过引入多种数据增广方法使模型的平均准确率达到了90.7%。所提出的目标检测模块和状态识别网络模型能够有效、准确地完成各类仪器的状态识别,同时能够对仪器状态的识别结果在时间跨度上进行融合。  相似文献   

6.
针对现有基于大数据和深度学习的目标检测框架对于高分辨率复杂大场景中低分辨率小目标识别效果较差、多目标检测的精度和实时性难以平衡的问题,改进了基于深度学习的目标检测框架 SSD(single shot multibox detector),提出一种改进的多目标检测框架DRZ-SSD,将其专用于复杂大交通场景多目标检测。检测以从粗到细的策略进行,分别训练一个低分辨率粗略检测器和一个高分辨率精细检测器,对高分辨率图像进行下采样获得低分辨率版本,设计了一种基于增强学习的动态区域放大网络框架(DRZN),动态放大低分辨率弱小目标区域至高分辨率再使用精细检测器进行检测识别,剩余图像区域使用粗略检测器进行检测,对弱小目标的检测与识别精度以及运算效率的提高效果明显;采用模糊阈值法调整自适应阈值策略在避免适应数据集的同时提高模型的决策能力,显著降低了检测漏警率和虚警率。实验表明,改进后的DRZ-SSD在应对弱小目标、多目标、杂乱背景、遮挡等检测难度较大的情况时,均能获得较好的效果。通过在指定数据集上的测试,相比于其他基于深度学习的目标检测框架,各类目标识别的平均准确率提高了4%~15%,平均准确率均值提高了约9%~16%,多目标检测率提高了13%~34%,检测识别速率达到38 fps,实现了算法精度与运行速率的平衡。  相似文献   

7.
目标检测在自然场景和遥感场景中的研究极具挑战。尽管许多先进的算法在自然场景下取得了优异的成果,但是遥感图像的复杂性、目标尺度的多样性及目标密集分布的特性,使得针对遥感图像目标检测的研究步伐缓慢。本文提出一个新颖的多类别目标检测模型,可以自动学习特征融合时的权重,并突出目标特征,实现在复杂的遥感图像中有效地检测小目标和密集分布的目标。模型在公开数据集DOTA和NWPU VHR-10上的实验结果表明检测效果超过了大多数经典算法。  相似文献   

8.
史文旭  鲍佳慧  姚宇 《计算机应用》2005,40(12):3558-3562
为解决目前的遥感图像目标检测算法存在的对小尺度目标检测精度低和检测速度慢等问题,提出了一种基于深度学习的遥感图像目标检测与识别算法。首先,构建一个含有不同尺度大小的遥感图像的数据集用于模型的训练和测试;其次,基于原始的多尺度单发射击(SSD)网络模型,融入了设计的浅层特征融合模块、浅层特征增强模块和深层特征增强模块;最后,在训练策略上引入聚焦分类损失函数,以解决训练过程中正负样本失衡的问题。在高分辨率遥感图像数据集上进行实验,结果表明所提算法的检测平均精度均值(mAP)达到77.95%,相较于SSD网络模型提高了3.99个百分点,同时检测速度为33.8 frame/s。此外,在拓展实验中,改进算法对高分辨率遥感图像中模糊目标的检测效果也优于原多尺度单发射击网络模型。实验结果说明,所提改进算法能够有效地提高遥感图像目标检测的精度。  相似文献   

9.
针对RetinaNet在遥感目标检测任务中多尺度、密集小目标问题,提出了ACFEM-RetinaNet遥感目标检测算法。针对原主干特征提取不充分的问题,采用Swin Transformer作为主干网络,以提升算法的特征提取能力,提高检测精度。针对遥感图像多尺度问题,提出自适应上下文特征提取模块,使用SK注意力引导不同空洞率的可变形卷积自适应调整感受野、提取上下文特征,改善多尺度目标检测效果。针对遥感图像中密集小目标问题,引入FreeAnchor模块,从极大释然估计的角度设计优化锚框匹配策略,提高检测精度。实验结果表明,在公共遥感图像目标检测数据集RSOD上,ACFEM-RetinaNet算法取得了91.1%的检测精度,相较于原算法提高了4.6个百分点,能更好地应用于遥感图像目标检测。  相似文献   

10.
近年来,基于全卷积网络的显著性物体检测方法较手工选取特征的方法已经取得了较大的进展,但针对复杂场景图像的检测仍存在一些问题需要解决。提出了一种新的基于全局特征引导的显著性物体检测模型,研究深层语义特征在多尺度多层次特征表达中的重要作用。以特征金字塔网络的编解码结构为基础,在自底而上的路径中,设计了全局特征生成模块(GGM),准确提取显著性物体的位置信息;构建了加强上下文联系的残差模块(RM),提取各侧边输出的多尺度特征;采用特征引导流(GF)融合全局特征生成模块和残差模块,利用深层语义特征去引导浅层特征提取,高亮显著目标的同时抑制背景噪声。实验结果表明,在5个基准数据集上与11种主流方法相比,该模型具有优越性。  相似文献   

11.
目的 目前文本到图像的生成模型仅在具有单个对象的图像数据集上表现良好,当一幅图像涉及多个对象和关系时,生成的图像就会变得混乱。已有的解决方案是将文本描述转换为更能表示图像中场景关系的场景图结构,然后利用场景图生成图像,但是现有的场景图到图像的生成模型最终生成的图像不够清晰,对象细节不足。为此,提出一种基于图注意力网络的场景图到图像的生成模型,生成更高质量的图像。方法 模型由提取场景图特征的图注意力网络、合成场景布局的对象布局网络、将场景布局转换为生成图像的级联细化网络以及提高生成图像质量的鉴别器网络组成。图注意力网络将得到的具有更强表达能力的输出对象特征向量传递给改进的对象布局网络,合成更接近真实标签的场景布局。同时,提出使用特征匹配的方式计算图像损失,使得最终生成图像与真实图像在语义上更加相似。结果 通过在包含多个对象的COCO-Stuff图像数据集中训练模型生成64×64像素的图像,本文模型可以生成包含多个对象和关系的复杂场景图像,且生成图像的Inception Score为7.8左右,与原有的场景图到图像生成模型相比提高了0.5。结论 本文提出的基于图注意力网络的场景图到图像生成模型不仅可以生成包含多个对象和关系的复杂场景图像,而且生成图像质量更高,细节更清晰。  相似文献   

12.
Visual learning and recognition of 3-d objects from appearance   总被引:33,自引:9,他引:24  
The problem of automatically learning object models for recognition and pose estimation is addressed. In contrast to the traditional approach, the recognition problem is formulated as one of matching appearance rather than shape. The appearance of an object in a two-dimensional image depends on its shape, reflectance properties, pose in the scene, and the illumination conditions. While shape and reflectance are intrinsic properties and constant for a rigid object, pose and illumination vary from scene to scene. A compact representation of object appearance is proposed that is parametrized by pose and illumination. For each object of interest, a large set of images is obtained by automatically varying pose and illumination. This image set is compressed to obtain a low-dimensional subspace, called the eigenspace, in which the object is represented as a manifold. Given an unknown input image, the recognition system projects the image to eigenspace. The object is recognized based on the manifold it lies on. The exact position of the projection on the manifold determines the object's pose in the image.A variety of experiments are conducted using objects with complex appearance characteristics. The performance of the recognition and pose estimation algorithms is studied using over a thousand input images of sample objects. Sensitivity of recognition to the number of eigenspace dimensions and the number of learning samples is analyzed. For the objects used, appearance representation in eigenspaces with less than 20 dimensions produces accurate recognition results with an average pose estimation error of about 1.0 degree. A near real-time recognition system with 20 complex objects in the database has been developed. The paper is concluded with a discussion on various issues related to the proposed learning and recognition methodology.  相似文献   

13.
新视角图像生成任务指通过多幅参考图像,生成场景新视角图像。然而多物体场景存在物体间遮挡,物体信息获取不全,导致生成的新视角场景图像存在伪影、错位问题。为解决该问题,提出一种借助场景布局图指导的新视角图像生成网络,并标注了全新的多物体场景数据集(multi-objects novel view Synthesis,MONVS)。首先,将场景的多个布局图信息和对应的相机位姿信息输入到布局图预测模块,计算出新视角下的场景布局图信息;然后,利用场景中标注的物体边界框信息构建不同物体的对象集合,借助像素预测模块生成新视角场景下的各个物体信息;最后,将得到的新视角布局图和各个物体信息输入到场景生成器中构建新视角下的场景图像。在MONVS和ShapeNet cars数据集上与最新的几种方法进行了比较,实验数据和可视化结果表明,在多物体场景的新视角图像生成中,所提方法在两个数据集上都有较好的效果表现,有效地解决了生成图像中存在伪影和多物体在场景中位置信息不准确的问题。  相似文献   

14.
The goal of object categorization is to locate and identify instances of an object category within an image. Recognizing an object in an image is difficult when images include occlusion, poor quality, noise or background clutter, and this task becomes even more challenging when many objects are present in the same scene. Several models for object categorization use appearance and context information from objects to improve recognition accuracy. Appearance information, based on visual cues, can successfully identify object classes up to a certain extent. Context information, based on the interaction among objects in the scene or global scene statistics, can help successfully disambiguate appearance inputs in recognition tasks. In this work we address the problem of incorporating different types of contextual information for robust object categorization in computer vision. We review different ways of using contextual information in the field of object categorization, considering the most common levels of extraction of context and the different levels of contextual interactions. We also examine common machine learning models that integrate context information into object recognition frameworks and discuss scalability, optimizations and possible future approaches.  相似文献   

15.
在复杂的自然场景中,目标识别存在背景干扰、周围物体遮挡和光照变化等问题,同时识别的目标大多拥有多种不同的尺寸和类型.针对上述目标识别存在的问题,本文提出了一种基于改进YOLOv3的非限制自然场景中中等或较大尺寸的目标识别方法 (简称CDSP-YOLO).该方法采用CLAHE图像增强预处理方法来消除自然场景中光照变化对目标识别效果的影响,并使用随机空间采样池化(S3Pool)作为特征提取网络的下采样方法来保留特征图的空间信息解决复杂环境中的背景干扰问题,而且对多尺度识别进行改进来解决YOLOv3对于中等或较大尺寸目标识别效果不佳的问题.实验结果表明:本文提出的方法在移动通信铁塔测试集上的准确率达97%,召回率达80%.与YOLOv3相比,该方法在非限制自然场景中的目标识别应用上具有更好的性能和推广应用前景.  相似文献   

16.
Detecting objects in complex scenes while recovering the scene layout is a critical functionality in many vision-based applications. In this work, we advocate the importance of geometric contextual reasoning for object recognition. We start from the intuition that objects' location and pose in the 3D space are not arbitrarily distributed but rather constrained by the fact that objects must lie on one or multiple supporting surfaces. We model such supporting surfaces by means of hidden parameters (i.e. not explicitly observed) and formulate the problem of joint scene reconstruction and object recognition as the one of finding the set of parameters that maximizes the joint probability of having a number of detected objects on K supporting planes given the observations. As a key ingredient for solving this optimization problem, we have demonstrated a novel relationship between object location and pose in the image, and the scene layout parameters (i.e. normal of one or more supporting planes in 3D and camera pose, location and focal length). Using a novel probabilistic formulation and the above relationship our method has the unique ability to jointly: i) reduce false alarm and false negative object detection rate; ii) recover object location and supporting planes within the 3D camera reference system; iii) infer camera parameters (view point and the focal length) from just one single uncalibrated image. Quantitative and qualitative experimental evaluation on two datasets (desk-top dataset [1] and LabelMe [2]) demonstrates our theoretical claims.  相似文献   

17.
《Real》1999,5(2):95-107
Human beings act mysteriously well on object recognition tasks; they perceive images by sensors and convey information that is processed in parallel in the brain. To some extent, massively parallel computers offer a natural support for similar tasks, since the detection of an object in a scene can be performed by repeating the same operations in different zones of the scene. Unfortunately, most parametric models, commonly used in computer vision, are not very suitable for complex matching operations that involve both noise and severe image distortions.In this paper we discuss an expectation-driven approach for object recognition where, on the basis of the shape of the object to be recognized, we select a few possible zones of the scene where attention will be focused (shape perception): then we examine the previously selected areas, tyring to confirm or reject hypotheses of objects, if any (object classification). We propose the use of an architecture that relies on neural networks for both shape perception and object classification. A vision system based on the discussed architectures has been tested on board a mobile robot as a support for its localization and navigation in indoor environments. The obtained results demonstrated good tolerance with respect to both noise and landmark distortions, allowing the robot to perform its task “just-in-time”. The proposed approach has also been tested on a massively parallel architecture, with promising performance.  相似文献   

18.
多层感知机分类器是一种有效的数据分类方法,但其分类性能受训练样本空间的限制。通过多层感知机分类器系综提高室外场景理解中图像区域的分类性能,提出了一种自动识别室外场景图像中多种景物所属概念类别的方法。该方法首先提取图像分割区域的低层视觉特征,然后基于系综分类方法建立区域视觉特征和语义类别的对应关系,通过合并相同标注区域,确定图像中景物的高层语义。对包含5种景物的150幅图像进行测试,识别率达到了87%。与基于多层感知机方法的实验结果相比,本文提出的方法取得了更好的性能,这表明该方法适合于图像区域分类。此外,系综方法还可以推广到其他的分类问题。  相似文献   

19.
融合图像场景及物体先验知识的图像描述生成模型   总被引:1,自引:0,他引:1       下载免费PDF全文
目的 目前基于深度卷积神经网络(CNN)和长短时记忆(LSTM)网络模型进行图像描述的方法一般是用物体类别信息作为先验知识来提取图像CNN特征,忽略了图像中的场景先验知识,造成生成的句子缺乏对场景的准确描述,容易对图像中物体的位置关系等造成误判。针对此问题,设计了融合场景及物体类别先验信息的图像描述生成模型(F-SOCPK),将图像中的场景先验信息和物体类别先验信息融入模型中,协同生成图像的描述句子,提高句子生成质量。方法 首先在大规模场景类别数据集Place205上训练CNN-S模型中的参数,使得CNN-S模型能够包含更多的场景先验信息,然后将其中的参数通过迁移学习的方法迁移到CNNd-S中,用于捕捉待描述图像中的场景信息;同时,在大规模物体类别数据集Imagenet上训练CNN-O模型中的参数,然后将其迁移到CNNd-O模型中,用于捕捉图像中的物体信息。提取图像的场景信息和物体信息之后,分别将其送入语言模型LM-S和LM-O中;然后将LM-S和LM-O的输出信息通过Softmax函数的变换,得到单词表中每个单词的概率分值;最后使用加权融合方式,计算每个单词的最终分值,取概率最大者所对应的单词作为当前时间步上的输出,最终生成图像的描述句子。结果 在MSCOCO、Flickr30k和Flickr8k 3个公开数据集上进行实验。本文设计的模型在反映句子连贯性和准确率的BLEU指标、反映句子中单词的准确率和召回率的METEOR指标及反映语义丰富程度的CIDEr指标等多个性能指标上均超过了单独使用物体类别信息的模型,尤其在Flickr8k数据集上,在CIDEr指标上,比单独基于物体类别的Object-based模型提升了9%,比单独基于场景类别的Scene-based模型提升了近11%。结论 本文所提方法效果显著,在基准模型的基础上,性能有了很大提升;与其他主流方法相比,其性能也极为优越。尤其是在较大的数据集上(如MSCOCO),其优势较为明显;但在较小的数据集上(如Flickr8k),其性能还有待于进一步改进。在下一步工作中,将在模型中融入更多的视觉先验信息,如动作类别、物体与物体之间的关系等,进一步提升描述句子的质量。同时,也将结合更多视觉技术,如更深的CNN模型、目标检测、场景理解等,进一步提升句子的准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号