共查询到20条相似文献,搜索用时 15 毫秒
1.
2.
对于智能机器人来说,正确地理解环境是一项非常重要且充满挑战性的能力,从而成为机器人学领域一个关键问题.随着服务机器人进入家庭成为趋势,让机器人能够依靠自身搭载的传感器和场景理解算法,以自主、可靠的方式感知并理解其所处的环境,识别环境中的各类物体及其相互关系,并建立环境模型,成为自主完成任务和实现人-机器人智能交互的前提.在规模较大的室内空间中,由于机器人常用的RGB-D(RGB depth)视觉传感器(同时获取彩色图像和深度信息)视野有限,使之难以直接获取包含整个区域的单帧图像,但机器人能够运动到不同位置,采集多种视角的图像数据,这些数据总体上能够覆盖整个场景.在此背景下,提出了基于多视角RGB-D图像帧信息融合的室内场景理解算法,在单帧RGB-D图像上进行物体检测和物体关系提取,在多帧RGB-D图像上进行物体实例检测,同时构建对应整个场景的物体关系拓扑图模型.通过对RGB-D图像帧进行划分,提取图像单元的颜色直方图特征,并提出基于最长公共子序列的跨帧物体实例检测方法,确定多帧图像之间的物体对应关联,解决了RGB-D摄像机视角变化影响图像帧融合的问题.最后,在NYUv2(NYU depth dataset v2)数据集上验证了本文算法的有效性. 相似文献
3.
目的 在文档图像版面分析上,主流的深度学习方法克服了传统方法的缺点,能够同时实现文档版面的区域定位与分类,但大多需要复杂的预处理过程,模型结构复杂。此外,文档图像数据不足的问题导致文档图像版面分析无法在通用的深度学习模型上取得较好的性能。针对上述问题,提出一种多特征融合卷积神经网络的深度学习方法。方法 首先,采用不同大小的卷积核并行对输入图像进行特征提取,接着将卷积后的特征图进行融合,组成特征融合模块;然后选取DeeplabV3中的串并行空间金字塔策略,并添加图像级特征对提取的特征图进一步优化;最后通过双线性插值法对图像进行恢复,完成文档版面目标,即插图、表格、公式的定位与识别任务。结果 本文采用mIOU(mean intersection over union)以及PA(pixel accuracy)两个指标作为评价标准,在ICDAR 2017 POD文档版面目标检测数据集上的实验表明,提出算法在mIOU与PA上分别达到87.26%和98.10%。对比FCN(fully convolutional networks),提出算法在mIOU与PA上分别提升约14.66%和2.22%,并且提出的特征融合模块对模型在mIOU与PA上分别有1.45%与0.22%的提升。结论 本文算法在一个网络框架下同时实现了文档版面多种目标的定位与识别,在训练上并不需要对图像做复杂的预处理,模型结构简单。实验数据表明本文算法在训练数据较少的情况下能够取得较好的识别效果,优于FCN和DeeplabV3方法。 相似文献
4.
动态图像序列中的运动目标检测 总被引:7,自引:4,他引:7
根据动态图像序列中背景因成像过程中各种因素而产生变化所存在的复杂性,提出了自适应的前景目标检测方法。首先,建立图像每一像素点的高斯分布模型,并根据序列中的当前帧及历史帧信息自适应地调整模型的参数。然后,结合图像帧间的差分信息以及灰度分布的先验概率等因素将图像从空间域映射至统计域。最后,在统计域中对前景目标进行鲁棒分割。实验的结果反映了该方法的有效性。 相似文献
5.
A Critical View of Context 总被引:3,自引:0,他引:3
6.
7.
提出了一种融合场景上下文信息的两级分类算法,从单幅图像中恢复场景结构。室外场景的结构化特征使其3维结构可以粗略地分为3类:"地面","天空"以及"竖直物体"。首先,把图像分割成具有灰度和颜色一致性的区域;其次确定特征显著区域("确定区域")的结构,将特征不明显的区域标记为"未知区域";然后根据"未知区域"与"确定区域"的相似性及"确定区域"场景结构对"未知区域"的可能结构进行投票,将投票最多的结构类型赋予"未知区域";最后介绍场景结构恢复在构造场景3维模型方面的应用。实验结果表明,由于利用了场景结构的上下文信息,该算法场景结构恢复的正确率为92.3%,优于现有算法88.1%的恢复正确率。 相似文献
8.
在目标大小已知、视点相同的情况下,通过对输入图像中各个与目标大小相同的子窗口进行局部分割,并确定每一子窗口局部分割结果与目标模板间的公共区域,分别提取两者在极坐标下的特征,根据两者特征的相似性,在一定的相似性门限下,实现对子窗口的识别。实验证明,该方法在背景复杂、目标分割质量较差的情况下,仍能取得较好的识别效果。 相似文献
9.
In this paper we present a Bayesian framework for parsing images into their constituent visual patterns. The parsing algorithm optimizes the posterior probability and outputs a scene representation as a parsing graph, in a spirit similar to parsing sentences in speech and natural language. The algorithm constructs the parsing graph and re-configures it dynamically using a set of moves, which are mostly reversible Markov chain jumps. This computational framework integrates two popular inference approaches—generative (top-down) methods and discriminative (bottom-up) methods. The former formulates the posterior probability in terms of generative models for images defined by likelihood functions and priors. The latter computes discriminative probabilities based on a sequence (cascade) of bottom-up tests/filters. In our Markov chain algorithm design, the posterior probability, defined by the generative models, is the invariant (target) probability for the Markov chain, and the discriminative probabilities are used to construct proposal probabilities to drive the Markov chain. Intuitively, the bottom-up discriminative probabilities activate top-down generative models. In this paper, we focus on two types of visual patterns—generic visual patterns, such as texture and shading, and object patterns including human faces and text. These types of patterns compete and cooperate to explain the image and so image parsing unifies image segmentation, object detection, and recognition (if we use generic visual patterns only then image parsing will correspond to image segmentation (Tu and Zhu, 2002. IEEE Trans. PAMI, 24(5):657–673). We illustrate our algorithm on natural images of complex city scenes and show examples where image segmentation can be improved by allowing object specific knowledge to disambiguate low-level segmentation cues, and conversely where object detection can be improved by using generic visual patterns to explain away shadows and occlusions. 相似文献
10.
目的 图像显著适配旨在自动调节图像尺寸,对图像内容进行非均匀缩放,以便在受限的展示空间内更好地保留显著物体。为了解决显示适配过程中显著物体部分扭曲的问题,提出一种基于显著物体检测的图像显示适配方法。方法 本文方法采用显著物体分割结果来替代显著性图,以改进显示适配结果。首先,采用显著性融合和传播的方法生成显著性图;接着,结合输入图像和显著性图,采用自适应三阈值方法实现显著物体分割;然后,以此为基础,生成输入图像的曲边网格表示;最后,通过对不同网格的非均匀缩放,生成符合目标尺寸的适配结果。结果 在面向图像显示适配的公开数据集RetargetMe上,将本文方法与现有的10种代表性显示适配方法的结果进行了人工评估和比较。本文方法可以有效地减少显著物体出现部分扭曲的现象,能在48.8%的图像上取得无明显缺陷的适配效果,比现有最好的方法提高了5%。结论 基于显著物体检测的图像显示适配方法有助于提高显示适配过程中对显著物体处理的一致性,减少由于显著物体部分扭曲而引起的明显人工处理痕迹,从而达到提升显示适配效果的目的。 相似文献
11.
针对二次反射技术中二次反射镜空间尺度较大、表面反射率高的特点,利用周期性分布的彩色编码板和图像识别方法获得彩色色块虚像的分布情况,通过与理想色块虚像分布的对比计算实际矢量与理想矢量的偏差角,再根据反射定律计算反射法线偏差角分布用于评估待测二次反射镜面形质量.通过仿真实验与样品试验进行验证,结果表明该方法能够实现高精度的... 相似文献
12.
Baback Moghaddam Henning Biermann Dimitris Margaritis 《Multimedia Tools and Applications》2001,14(2):201-210
To date most content-based image retrieval (CBIR) techniques rely on global attributes such as color or texture histograms which tend to ignore the spatial composition of the image. In this paper, we present an alternative image retrieval system based on the principle that it is the user who is most qualified to specify the query content and not the computer. With our system, the user can select multiple regions-of-interest and can specify the relevance of their spatial layout in the retrieval process. We also derive similarity bounds on histogram distances for pruning the database search. This experimental system was found to be superior to global indexing techniques as measured by statistical sampling of multiple users' satisfaction ratings. 相似文献
13.
14.
基于彩色图像分割的高温辐射体识别方法 总被引:1,自引:0,他引:1
准确识别待测目标是利用CCD图像传感器进行高温测量的关键.本文在对高温辐射体彩色图像的噪声特点进行分析的基础上,提出一种基于彩色图像分割的高温辐射体识别方法,通过对红、绿基色图像分别进行分割来减小甚至消除高温辐射体图像的各种噪声,然后综合红、绿基色图像分割结果实现高温辐射体的准确识别,并运用数学形态学方法对分割结果进行后处理以消除游离点和孔洞,使图像边缘平滑;实验表明,该方法可以有效地实现高温辐射体的正确识别,具有较强的实用性. 相似文献
15.
16.
如何迅速、准确地分割虹膜区域是基于虹膜图像的身份鉴别技术的一个研究热点和难点。本文结合虹膜图像的特点,在内边缘的定位中采用了阈值化结合最小二乘估计的方法;对外边缘和眼睑的边缘图进行预处理,并改进了Hough变换的决策方法,准确而快速地分割出虹膜区域。 相似文献
17.
18.
19.
针对动态物体会导致位姿估计误差过大的问题,提出一种适用于动态场景下的RGB-D SLAM算法。首先,将目标检测的结果根据物体是否具有自主移动能力划分为动态物体与潜在动态物体,并使用大津法在对应的深度图中完成检测框内区域的前、背景分割;然后,结合检测框的位置坐标与深度信息确定潜在动态物体与动态物体在三维空间内是否关联,初步筛选出具有一定运动概率的潜在动态物体;最后,通过运动一致性检测算法来最终确定是否将潜在动态物体作为动态物体处理。实验部分选用公开的TUM数据集,结果表明,该算法在保持实时性的同时具有较高的定位精度和鲁棒性。 相似文献
20.
图像理解中的卷积神经网络 总被引:20,自引:0,他引:20
近年来,卷积神经网络(Convolutional neural networks,CNN)已在图像理解领域得到了广泛的应用,引起了研究者的关注. 特别是随着大规模图像数据的产生以及计算机硬件(特别是GPU)的飞速发展,卷积神经网络以及其改进方法在图像理解中取得了突破性的成果,引发了研究的热潮. 本文综述了卷积神经网络在图像理解中的研究进展与典型应用. 首先,阐述卷积神经网络的基础理论;然后,阐述其在图像理解的具体方面,如图像分类与物体检测、人脸识别和场景的语义分割等的研究进展与应用. 相似文献