首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
为实现复杂图像场景下的物体检测,提出整合视觉注意机制与局部描述子技术的检测模型.通过计算探测场景的显著图及提取其SIFT局部描述子特征,采用层次化的匹配策略对任务物体与探测场景进行关键点匹配以实现物体检测.该策略能将匹配范围界定于场景中富含物体区分性信息的显著区域,并且匹配的门限也可由这些区域的显著性自适应地调节.定性及定量的对比实验验证了该模型的性能.  相似文献   

2.
基于Local特征和Regional特征的图像显著性检测   总被引:3,自引:0,他引:3  
郭迎春  袁浩杰  吴鹏 《自动化学报》2013,39(8):1214-1224
提出了一种基于颜色空间的Local特征和Regional特征的自然图像显著性检测方法. 该方法将图像分成8×8的子块, 计算多个尺度下每一个子块的Local特征和Regional特征, 并将其加权组合来确定子块的显著程度, 从而得到整个图像的显著特征. 此外, 通过计算4个颜色通道上的色度对比度, 获得显著物体的边缘. 将图像的显著特征与显著物体的边缘综合后得到图像中的显著目标. 实验结果显示, 本文提出的方法能够快速、清晰而准确地提取出图像中的显著性目标.  相似文献   

3.
提出一种基于注意力的图像分割算法,在视觉场景选择机制基础上结合目标色彩特征的任务驱动机制,形成了自下而上和自上而下的注意力集成分割机理。该算法在图像的多尺度空间中,把视觉场景的亮度、颜色和方向特征与任务目标色彩特征同时进行提取,生成场景和目标相结合的显著图,然后在基于视觉注意力图像空间中对“场景-目标” 显著图进行归一化的跨尺度融合,最后通过双线性插值和显著图连通区域二值化分割出图像目标注意力焦点。应用该算法对自然场景与室内场景图像进行实验,结果表明该方法在各种环境中尤其是干扰物体较显著的情形下都能成功地分割提取出目标物体。  相似文献   

4.
为了解决显著物体检测方法中浅层特征未能有效利用深层语义信息的目标定位优势进行细节特征定位和学习问题,提出一种基于特征感知和更新的显著物体检测模型。采用卷积组提升不同层级侧输出特征性能和降低特征维度,设计全局信息感知模块提取和融合多尺度的全局特征,在每侧直接融合深层的语义特征和浅层的细节特征,并通过计算空间注意力进行显著性特征更新。通过在4个公开基准数据集上与12种近3年发表的具有代表性的主流模型对比,实验结果表明,所提模型面对各种复杂场景均具有较强的鲁棒性,得到具有均匀内部和清晰边界的检测结果。  相似文献   

5.
一种快速的视频序列运动分割方法   总被引:3,自引:0,他引:3       下载免费PDF全文
提出一种视频序列运动分割的实时方法,该方法通过两次背景更新提取运动前景,其中长程背景更新检测噪声运动区域,并将长时间停留在场景中的物体纳入背景范围,短程背景更新利用单高斯分布模型实现对光线缓慢变化的适应。采用基于颜色空间的方法实现对阴影的消除,通过投影分割提取出不同的运动目标。试验证明该方法能够快速、精确地实现视频序列中多个运动目标的分割,消除背景噪声运动、目标阴影以及场景变化的影响。  相似文献   

6.
为解决基于空间的视觉注意计算模型存在的注意目标不完整、容易转移到无意义区域等问题,提出一种结合空间显著性的基于物体的视觉注意计算模型。检测图像的边缘信息,根据空间视觉显著性度量结果,提取显著值高的封闭边缘,得到感知物体的轮廓。根据各感知物体的大小、位置和显著程度计算其注意度。注意焦点按照注意度递减的顺序在各感知物体之间进行转移。在多幅自然图像上进行实验验证,实验结果表明该模型具有和人类视觉特性相符合的注意效果。  相似文献   

7.
近年来,基于全卷积网络的显著性物体检测方法较手工选取特征的方法已经取得了较大的进展,但针对复杂场景图像的检测仍存在一些问题需要解决。提出了一种新的基于全局特征引导的显著性物体检测模型,研究深层语义特征在多尺度多层次特征表达中的重要作用。以特征金字塔网络的编解码结构为基础,在自底而上的路径中,设计了全局特征生成模块(GGM),准确提取显著性物体的位置信息;构建了加强上下文联系的残差模块(RM),提取各侧边输出的多尺度特征;采用特征引导流(GF)融合全局特征生成模块和残差模块,利用深层语义特征去引导浅层特征提取,高亮显著目标的同时抑制背景噪声。实验结果表明,在5个基准数据集上与11种主流方法相比,该模型具有优越性。  相似文献   

8.
吴静  杨武年  桑强 《计算机科学》2018,45(10):281-285
自然场景中的目标轮廓提取是计算机视觉中的一个重要研究问题。其难点在于场景中大量的纹理边缘严重地干扰了轮廓提取的完整性。近年来,一些研究工作将生物视觉特征引入图像边缘轮廓提取,取得了一定的效果。其中通过引入视觉外区抑制特征可以在提取物体轮廓边缘的同时抑制一定量的纹理边缘,从而得到轮廓边缘集合。然而在整合轮廓边缘时,传统模型仅仅采用求交并集的简单合并方法,使得强响应的细小纹理残留。基于此,提出了一种改进的基于生物视觉特征的自然场景目标轮廓提取算法。首先采用多水平抑制方法得到候选轮廓边缘集合。接着将一种基于生物视觉特征的边缘组合方法用于将候选边缘整合成为一个完整的目标轮廓。与传统的外区抑制算法相比,基于视觉特征的轮廓提取算法提高了自然场景中目标轮廓提取的准确性和完整性。  相似文献   

9.
目的 视觉里程计(visual odometry,VO)仅需要普通相机即可实现精度可观的自主定位,已经成为计算机视觉和机器人领域的研究热点,但是当前研究及应用大多基于场景为静态的假设,即场景中只有相机运动这一个运动模型,无法处理多个运动模型,因此本文提出一种基于分裂合并运动分割的多运动视觉里程计方法,获得场景中除相机运动外多个运动目标的运动状态。方法 基于传统的视觉里程计框架,引入多模型拟合的方法分割出动态场景中的多个运动模型,采用RANSAC(random sample consensus)方法估计出多个运动模型的运动参数实例;接着将相机运动信息以及各个运动目标的运动信息转换到统一的坐标系中,获得相机的视觉里程计结果,以及场景中各个运动目标对应各个时刻的位姿信息;最后采用局部窗口光束法平差直接对相机的姿态以及计算出来的相机相对于各个运动目标的姿态进行校正,利用相机运动模型的内点和各个时刻获得的相机相对于运动目标的运动参数,对多个运动模型的轨迹进行优化。结果 本文所构建的连续帧运动分割方法能够达到较好的分割结果,具有较好的鲁棒性,连续帧的分割精度均能达到近100%,充分保证后续估计各个运动模型参数的准确性。本文方法不仅能够有效估计出相机的位姿,还能估计出场景中存在的显著移动目标的位姿,在各个分段路径中相机自定位与移动目标的定位结果位置平均误差均小于6%。结论 本文方法能够同时分割出动态场景中的相机自身运动模型和不同运动的动态物体运动模型,进而同时估计出相机和各个动态物体的绝对运动轨迹,构建出多运动视觉里程计过程。  相似文献   

10.
李明  鹿朋  朱龙  朱美强  邹亮 《控制与决策》2023,38(10):2867-2874
针对当前抓取检测模型对密集遮挡物体的检测效果差以及人工数据标注工作量大的问题,提出基于RGB-D图像融合的目标检测与抓取检测分步骤进行的改进方案.新方案支持将单物体图像训练的抓取检测模型直接应用于密集遮挡的多物体图像场景中.首先,考虑到密集遮挡场景下抓取物具有多尺度的特点,提出子阶段路径聚合(SPA)的多尺度特征融合模块,用于丰富RGB-D特征级别融合的目标检测模型SPA-YOLO-Fusion的高维语义特征信息,以便于检测模型定位所有的抓取物;其次,使用基于RGB-D像素级别融合的GR-ConvNet抓取检测模型估计每个物体的抓取点,并提出背景填充的图像预处理算法来降低密集遮挡物体的相互影响;最后,使用机械臂对目标点进行抓取.在LineMOD数据集上对目标检测模型进行测试,实验结果表明SPA-YOLO-Fusion的mAP比YOLOv3-tiny与YOLOv4-tiny分别提高了10%与7%.从实际场景中采集图像制作YODO_Grasp抓取检测数据集并进行测试,结果表明增加背景填充预处理算法的GR-ConvNet的抓取检测精度比原模型提高了23%.  相似文献   

11.
This paper proposes a novel multi-object detection method using multiple cameras. Unlike conventional multi-camera object detection methods, our method detects multiple objects using a linear camera array. The array can stream different views of the environment and can be easily reconfigured for a scene compared with the overhead surround configuration. Using the proposed method, the synthesized results can provide not only views of significantly occluded objects but also the ability of focusing on the target while blurring objects that are not of interest. Our method does not need to reconstruct the 3D structure of the scene, can accommodate dynamic background, is able to detect objects at any depth using a new synthetic aperture imaging method based on a simple shift transformation, and can see through occluders. The experimental results show that the proposed method has a good performance and can synthesize objects located within any designated depth interval with much better clarity than that using an existing method. To our best knowledge, it is the first time that such a method using synthetic aperture imaging has been proposed and developed for multi-object detection in a complex scene with a significant occlusion at different depths.  相似文献   

12.
This paper proposes a new approach for multi-object 3D scene modeling. Scenes with multiple objects are characterized by object occlusions under several views, complex illumination conditions due to multiple reflections and shadows, as well as a variety of object shapes and surface properties. These factors raise huge challenges when attempting to model real 3D multi-object scene by using existing approaches which are designed mainly for single object modeling. The proposed method relies on the initialization provided by a rough 3D model of the scene estimated from the given set of multi-view images. The contributions described in this paper consists of two new methods for identifying and correcting errors in the reconstructed 3D scene. The first approach corrects the location of 3D patches from the scene after detecting the disparity between pairs of their projections into images. The second approach is called shape-from-contours and identifies discrepancies between projections of 3D objects and their corresponding contours, segmented from images. Both unsupervised and supervised segmentations are used to define the contours of objects.  相似文献   

13.
新视角图像生成任务指通过多幅参考图像,生成场景新视角图像。然而多物体场景存在物体间遮挡,物体信息获取不全,导致生成的新视角场景图像存在伪影、错位问题。为解决该问题,提出一种借助场景布局图指导的新视角图像生成网络,并标注了全新的多物体场景数据集(multi-objects novel view Synthesis,MONVS)。首先,将场景的多个布局图信息和对应的相机位姿信息输入到布局图预测模块,计算出新视角下的场景布局图信息;然后,利用场景中标注的物体边界框信息构建不同物体的对象集合,借助像素预测模块生成新视角场景下的各个物体信息;最后,将得到的新视角布局图和各个物体信息输入到场景生成器中构建新视角下的场景图像。在MONVS和ShapeNet cars数据集上与最新的几种方法进行了比较,实验数据和可视化结果表明,在多物体场景的新视角图像生成中,所提方法在两个数据集上都有较好的效果表现,有效地解决了生成图像中存在伪影和多物体在场景中位置信息不准确的问题。  相似文献   

14.
We aim to identify the salient objects in an image by applying a model of visual attention. We automate the process by predicting those objects in an image that are most likely to be the focus of someone's visual attention. Concretely, we first generate fixation maps from the eye tracking data, which express the ground truth of people's visual attention for each training image. Then, we extract the high-level features based on the bag-of-visual-words image representation as input attributes along with the fixation maps to train a support vector regression model. With this model, we can predict a new query image's saliency. Our experiments show that the model is capable of providing a good estimate for human visual attention in test images sets with one salient object and multiple salient objects. In this way, we seek to reduce the redundant information within the scene, and thus provide a more accurate depiction of the scene.  相似文献   

15.
郑顾平  王敏  李刚 《图学学报》2018,39(6):1069
航拍影像同一场景不同对象尺度差异较大,采用单一尺度的分割往往无法达到最 佳的分类效果。为解决这一问题,提出一种基于注意力机制的多尺度融合模型。首先,利用不 同采样率的扩张卷积提取航拍影像的多个尺度特征;然后,在多尺度融合阶段引入注意力机制, 使模型能够自动聚焦于合适的尺度,并为所有尺度及每个位置像素分别赋予权重;最后,将加 权融合后的特征图上采样到原图大小,对航拍影像的每个像素进行语义标注。实验结果表明, 与传统的 FCN、DeepLab 语义分割模型及其他航拍影像分割模型相比,基于注意力机制的多尺 度融合模型不仅具有更高的分割精度,而且可以通过对各尺度特征对应权重图的可视化,分析 不同尺度及位置像素的重要性。  相似文献   

16.
为了有效提取视频监控场景中的前景目标信息并准确跟踪目标的状态,提出一种基于混合高斯模型和Rao-Blackwellized蒙特卡洛数据关联的视频多目标跟踪方法。该方法根据场景中像素点的特征信息,利用混合高斯模型进行建模,并对前景目标进行检测,使用Rao-Blackwellized蒙特卡洛数据关联算法来降低可能的目标交叉及杂波干扰带来的影响,通过设置目标存在和消失参数,实现了实时多目标跟踪。实验结果表明,该方法不仅能对场景中未知目标的个数进行有效估计,而且可以准确地跟踪目标的状态,取得了良好的实际效果。  相似文献   

17.
Ming Xu  Tim Ellis 《自动化学报》2003,29(3):370-380
提出了一个在单个固定摄像机下进行多目标跟踪的方法.利用亮度和色度混合模型和卡尔曼滤波器来检测跟踪目标,为了利于预测和解释被遮挡的物体,建立了场景的模型.在遮挡的情况下,和传统的盲跟踪不同,本文中的目标状态是由可用的部分观测来估计的.对目标的观测取决于预测、前景观测和场景模型.这使得本文算法在定性或定量的分析下都表现出更加鲁棒的性能.  相似文献   

18.
Recently, various bag-of-features (BoF) methods show their good resistance to within-class variations and occlusions in object categorization. In this paper, we present a novel approach for multi-object categorization within the BoF framework. The approach addresses two issues in BoF related methods simultaneously: how to avoid scene modeling and how to predict labels of an image when multiple categories of objects are co-existing. We employ a biased sampling strategy which combines the bottom-up, biologically inspired saliency information and loose, top-down class prior information for object class modeling. Then this biased sampling component is further integrated with a multi-instance multi-label leaning and classification algorithm. With the proposed biased sampling strategy, we can perform multi-object categorization within an image without semantic segmentation. The experimental results on PASCAL VOC2007 and SUN09 show that the proposed method significantly improves the discriminative ability of BoF methods and achieves good performance in multi-object categorization tasks.  相似文献   

19.
现有基于深度学习的多目标跟踪算法大多利用目标检测任务预测的边界框跟踪目标,当目标间存在遮挡时,边界框会产生重叠进而影响跟踪准确度,针对这个问题,提出了一种在线多类别逐点式多目标跟踪与分割(category-free point-wise multi-object tracking and segmentation,CPMOTS)算法。该算法摒弃了边界框的目标表征方式,利用实例分割的像素级掩码表征目标进行跟踪,网络采用并行结构同时分割与跟踪多类别目标,并保证了运行效率,这在真实场景中有很强的实用性。CPMOTS首先利用实例分割网络得到实例分割掩码,对其采样得到无序点集;然后将点集的特征输入跟踪网络得到判别性的实例级嵌入向量;最后将该嵌入向量通过直观高效的注意力模块以显式建模其通道间的依赖关系,自适应学习每个特征通道的重要程度,依照这个重要程度选择性地强化有用的特征,抑制无用的特征,实现通道特征重标定,从而提高算法的性能。在多目标跟踪与分割基准数据集KITTI MOTS的实验表明,CPMOTS跟踪的精度优于大部分其他对比方法,并达到了16 frame/s的近实时速度。  相似文献   

20.
Multi-object detection and tracking by stereo vision   总被引:1,自引:0,他引:1  
This paper presents a new stereo vision-based model for multi-object detection and tracking in surveillance systems. Unlike most existing monocular camera-based systems, a stereo vision system is constructed in our model to overcome the problems of illumination variation, shadow interference, and object occlusion. In each frame, a sparse set of feature points are identified in the camera coordinate system, and then projected to the 2D ground plane. A kernel-based clustering algorithm is proposed to group the projected points according to their height values and locations on the plane. By producing clusters, the number, position, and orientation of objects in the surveillance scene can be determined for online multi-object detection and tracking. Experiments on both indoor and outdoor applications with complex scenes show the advantages of the proposed system.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号