首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
海量视频数据推动了基于数据驱动的单目图像深度估计研究.针对现有方法存在不同对象深度分配层次感不够的问题,在相似场景具有相似深度的假设前提下,提出一种基于语义级分割和深度迁移的单目图像2D转3D的方法.首先使用分割迁移模型将输入图像的像素进行语义级分类;然后通过语义级分类结果对场景匹配进行约束;再次利用SIFT流建立输入图像和匹配图像间像素级对应关系,并由此将匹配图像的深度迁移到输入图像上;最后通过语义级分割约束的最优化深度融合模型为不同对象区域分配深度值.Make3D测试数据的实验结果表明,该方法估计的深度质量比现有深度迁移方法更高,与最优化融合深度迁移算法相比,平均对数误差和平均相对误差分别降低0.03和0.02个点.  相似文献   

2.
在室内单目视觉导航任务中, 场景的深度信息十分重要. 但单目深度估计是一个不适定问题, 精度较低. 目前, 2D激光雷达在室内导航任务中应用广泛, 且价格低廉. 因此, 本文提出一种融合2D激光雷达的室内单目深度估计算法来提高深度估计精度. 本文在编解码结构上增加了2D激光雷达的特征提取, 通过跳跃连接增加单目深度估计结果的细节信息, 并提出一种运用通道注意力机制融合2D激光雷达特征和RGB图像特征的方法. 本文在公开数据集NYUDv2上对算法进行验证, 并针对本文算法的应用场景, 制作了带有2D激光雷达数据的深度数据集. 实验表明, 本文提出的算法在公开数据集和自制数据集中均优于现有的单目深度估计.  相似文献   

3.
针对现有3D轮廓提取方法计算量大、图像立体匹配难、图片中含有大量噪音的问题,提出了一种利用早期认知视觉系统提取图像3D轮廓的方法。早期认知视觉是连接早期视觉和认知视觉的中间平台,通过早期认知视觉系统提取出图像的2D基元,2D基元是图片小块,有丰富的语义信息包括位置,方向,相位和三色值;再由两个立体图像的相一致的2D基元配对来构建3D基元,通过3D基元的共面性和共色性得到图像的3D轮廓。在Ubuntu10.04下,通过输入立体图片对,对这种方法进行了实验,实验结果表明图像的3D轮廓能完好地提取出来,有效地保留图像的必要信息并具有强抗噪性。  相似文献   

4.
半自动2D转3D是解决当前3D影视内容匮乏的重要途径,其核心是将用户分配的稀疏深度转换成稠密深度。现有方法大多借助局部邻域进行深度插值,忽略了图像的全局约束关系,因而难以准确恢复深度图的对象边界。针对该问题,提出邻域扩展的最优化深度插值方法。首先引入邻域的邻域,建立邻域扩展的最优化深度插值能量模型;其次在相似的像素点与其邻域加权深度平均值的差异近似相等的假设条件下,将深度插值能量模型的最优化问题转换成一个稀疏线性方程组的求解问题。实验结果表明,与当前流行的半自动2D转3D方法相比,本文方法估计的深度图PSNR更高,同时增强了深度图的对象边界质量。  相似文献   

5.
从3D相关技术入手,初步讨论了人类视觉及相关转换技术。接着重点描述基于3d红蓝立体原理的图像转换原理,从图像颜色空间角度,着重讨论2D转3D的相关技术及研究现状,并基于电视类节目图像给出一套完整系统设计及实现,并给出相应的实验结果。  相似文献   

6.
三维飞行时间摄像机可实时同步获取场景三维信息和灰度图像信息.虽然它存在图像分辨率和质量较差等问题,但它可作为二维摄像机的互补.本文借鉴立体视觉技术,提出了一种2D/3D摄像机融合的三维视觉信息获取方案.论文首先基于固定空间关系和相近视野原则,设计2D/3D立体摄像机系统对空间场景同步成像.结合三维TOF摄像机成像特性,论文借鉴立体视觉技术完成二维摄像机的高质量二维彩色图像与插补后的三维摄像机深度图像的匹配关联.因此,本方法可实现场景的高精度彩色图像和对应三维空间信息的实时同步获取,同时保留了二维摄像机的高质量彩色二维成像和三维摄像机的快速稠密三维信息获取的优势.2D/3D摄像机图像融合匹配算法复杂度低,匹配精度和准确度取决于二维摄像机和三维摄像机自身性能、摄像机标定参数精度和深度图像插补算法,不会引入新的运算误差.试验结果验证了本文算法的有效性和精确度.  相似文献   

7.
深度学习单目深度估计研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
单目深度估计是从单幅图像中获取场景深度信息的重要技术,在智能汽车和机器人定位等领域应用广泛,具有重要的研究价值。随着深度学习技术的发展,涌现出许多基于深度学习的单目深度估计研究,单目深度估计性能也取得了很大进展。本文按照单目深度估计模型采用的训练数据的类型,从3个方面综述了近年来基于深度学习的单目深度估计方法:基于单图像训练的模型、基于多图像训练的模型和基于辅助信息优化训练的单目深度估计模型。同时,本文在综述了单目深度估计研究常用数据集和性能指标基础上,对经典的单目深度估计模型进行了性能比较分析。以单幅图像作为训练数据的模型具有网络结构简单的特点,但泛化性能较差。采用多图像训练的深度估计网络有更强的泛化性,但网络的参数量大、网络收敛速度慢、训练耗时长。引入辅助信息的深度估计网络的深度估计精度得到了进一步提升,但辅助信息的引入会造成网络结构复杂、收敛速度慢等问题。单目深度估计研究还存在许多的难题和挑战。利用多图像输入中包含的潜在信息和特定领域的约束信息,来提高单目深度估计的性能,逐渐成为了单目深度估计研究的趋势。  相似文献   

8.
为了解决高低差场景中平坦度高的2D视觉检测乏力的问题,基于深度学习和点云数据处理平台,融合3D点云格式图像和深度学习技术,建立微米精度、在线检测、成本可控的3D检测架构机制。采用相移和光栅投影结构光技术的硬件方案获取3D点云原始数据,基于强大的CPU和GPU处理芯片,对经过被测物体调制的光栅图案进行重新编码,并结合标定参数解算3D点云数据。对2D深度学习模型进行升级开发,可对点云数据进行标注、学习训练和检测,并将3D硬件、3D软件和3D算法进行整合。实验结果表明,所提系统有利于3D缺陷检测系统的落地,为智能3D检测设备奠定算法和软件基础。  相似文献   

9.
目的 2D姿态估计的误差是导致3D人体姿态估计产生误差的主要原因,如何在2D误差或噪声干扰下从2D姿态映射到最优、最合理的3D姿态,是提高3D人体姿态估计的关键。本文提出了一种稀疏表示与深度模型联合的3D姿态估计方法,以将3D姿态空间几何先验与时间信息相结合,达到提高3D姿态估计精度的目的。方法 利用融合稀疏表示的3D可变形状模型得到单帧图像可靠的3D初始值。构建多通道长短时记忆MLSTM(multi-channel long short term memory)降噪编/解码器,将获得的单帧3D初始值以时间序列形式输入到其中,利用MLSTM降噪编/解码器学习相邻帧之间人物姿态的时间依赖关系,并施加时间平滑约束,得到最终优化的3D姿态。结果 在Human3.6M数据集上进行了对比实验。对于两种输入数据:数据集给出的2D坐标和通过卷积神经网络获得的2D估计坐标,相比于单帧估计,通过MLSTM降噪编/解码器优化后的视频序列平均重构误差分别下降了12.6%,13%;相比于现有的基于视频的稀疏模型方法,本文方法对视频的平均重构误差下降了6.4%,9.1%。对于2D估计坐标数据,相比于现有的深度模型方法,本文方法对视频的平均重构误差下降了12.8%。结论 本文提出的基于时间信息的MLSTM降噪编/解码器与稀疏模型相结合,有效利用了3D姿态先验知识,视频帧间人物姿态连续变化的时间和空间依赖性,一定程度上提高了单目视频3D姿态估计的精度。  相似文献   

10.
文中提出一种羽毛球比赛的2D视频转换到3D视频的算法。在这类视频中,前景是最受关注的部分,准确地从背景中提取出前景对象是获取深度图的关键。文中采用一种改进的图割算法来获取前景,并根据场景结构构建背景深度模型,获取背景深度图;在背景深度图的基础上,根据前景与镜头之间的距离关系为前景对象进行深度赋值,从而得到前景深度图。然后,融合背景深度图和前景深度图,得到完整的深度图。最后,通过基于深度图像的虚拟视点绘制技术DIBR来获取用于3D显示的立体图像对。实验结果表明,最终生成的立体图像对具有较好的3D效果。  相似文献   

11.
由于在某些特殊场景中获取深度线索的难度较高,使得已有3D内容生成方法的应用受到限制.为此,以显著图代替深度图进行2D-3D转换,提出一种3D内容生成方法.使用全卷积网络(FCN)生成粗糙的显著图,通过条件随机场对FCN的输出结果进行优化.实验结果表明,该方法可以解决现有方法中因使用低等级特征进行视觉注意力分析而导致显著图质量不高的问题,且能够生成具有良好视觉效果的3D内容.  相似文献   

12.
李君浩  刘志 《计算机应用》2015,35(12):3560-3564
为了能够准确地检测出图像中的显著性对象,提出了一种新的基于视觉显著性图与似物性的对象检测算法。该算法首先在图像上提取大量具有较高似物性度量的矩形窗口,并估算出对象可能出现的位置,将窗口级的似物性度量转换到像素级的似物性度量;然后把原始显著性图与像素级的似物性图进行融合,生成加权显著性图,分别二值化原始显著性图和加权显著性图,利用凸包检测得到最大查找窗口区域与种子窗口区域;最后结合边缘概率密度搜索出最优的对象窗口。在公开数据集MSRA-B上的实验结果表明,该算法在准确率、召回率以及F-测度方面优于最大化显著区域检测算法、区域密度最大化算法以及似物性对象检测算法等已有的多种算法。  相似文献   

13.

Saliency prediction models provide a probabilistic map of relative likelihood of an image or video region to attract the attention of the human visual system. Over the past decade, many computational saliency prediction models have been proposed for 2D images and videos. Considering that the human visual system has evolved in a natural 3D environment, it is only natural to want to design visual attention models for 3D content. Existing monocular saliency models are not able to accurately predict the attentive regions when applied to 3D image/video content, as they do not incorporate depth information. This paper explores stereoscopic video saliency prediction by exploiting both low-level attributes such as brightness, color, texture, orientation, motion, and depth, as well as high-level cues such as face, person, vehicle, animal, text, and horizon. Our model starts with a rough segmentation and quantifies several intuitive observations such as the effects of visual discomfort level, depth abruptness, motion acceleration, elements of surprise, size and compactness of the salient regions, and emphasizing only a few salient objects in a scene. A new fovea-based model of spatial distance between the image regions is adopted for considering local and global feature calculations. To efficiently fuse the conspicuity maps generated by our method to one single saliency map that is highly correlated with the eye-fixation data, a random forest based algorithm is utilized. The performance of the proposed saliency model is evaluated against the results of an eye-tracking experiment, which involved 24 subjects and an in-house database of 61 captured stereoscopic videos. Our stereo video database as well as the eye-tracking data are publicly available along with this paper. Experiment results show that the proposed saliency prediction method achieves competitive performance compared to the state-of-the-art approaches.

  相似文献   

14.
目的 立体视频能提供身临其境的逼真感而越来越受到人们的喜爱,而视觉显著性检测可以自动预测、定位和挖掘重要视觉信息,可以帮助机器对海量多媒体信息进行有效筛选。为了提高立体视频中的显著区域检测性能,提出了一种融合双目多维感知特性的立体视频显著性检测模型。方法 从立体视频的空域、深度以及时域3个不同维度出发进行显著性计算。首先,基于图像的空间特征利用贝叶斯模型计算2D图像显著图;接着,根据双目感知特征获取立体视频图像的深度显著图;然后,利用Lucas-Kanade光流法计算帧间局部区域的运动特征,获取时域显著图;最后,将3种不同维度的显著图采用一种基于全局-区域差异度大小的融合方法进行相互融合,获得最终的立体视频显著区域分布模型。结果 在不同类型的立体视频序列中的实验结果表明,本文模型获得了80%的准确率和72%的召回率,且保持了相对较低的计算复杂度,优于现有的显著性检测模型。结论 本文的显著性检测模型能有效地获取立体视频中的显著区域,可应用于立体视频/图像编码、立体视频/图像质量评价等领域。  相似文献   

15.
目的 视觉显著性在众多视觉驱动的应用中具有重要作用,这些应用领域出现了从2维视觉到3维视觉的转换,从而基于RGB-D数据的显著性模型引起了广泛关注。与2维图像的显著性不同,RGB-D显著性包含了许多不同模态的线索。多模态线索之间存在互补和竞争关系,如何有效地利用和融合这些线索仍是一个挑战。传统的融合模型很难充分利用多模态线索之间的优势,因此研究了RGB-D显著性形成过程中多模态线索融合的问题。方法 提出了一种基于超像素下条件随机场的RGB-D显著性检测模型。提取不同模态的显著性线索,包括平面线索、深度线索和运动线索等。以超像素为单位建立条件随机场模型,联合多模态线索的影响和图像邻域显著值平滑约束,设计了一个全局能量函数作为模型的优化目标,刻画了多模态线索之间的相互作用机制。其中,多模态线索在能量函数中的权重因子由卷积神经网络学习得到。结果 实验在两个公开的RGB-D视频显著性数据集上与6种显著性检测方法进行了比较,所提模型在所有相关数据集和评价指标上都优于当前最先进的模型。相比于第2高的指标,所提模型的AUC(area under curve),sAUC(shuffled AUC),SIM(similarity),PCC(Pearson correlation coefficient)和NSS(normalized scanpath saliency)指标在IRCCyN数据集上分别提升了2.3%,2.3%,18.9%,21.6%和56.2%;在DML-iTrack-3D数据集上分别提升了2.0%,1.4%,29.1%,10.6%,23.3%。此外还进行了模型内部的比较,验证了所提融合方法优于其他传统融合方法。结论 本文提出的RGB-D显著性检测模型中的条件随机场和卷积神经网络充分利用了不同模态线索的优势,将它们有效融合,提升了显著性检测模型的性能,能在视觉驱动的应用领域发挥一定作用。  相似文献   

16.
Perceptually salient regions have a significant effect on visual comfort in stereoscopic 3D (S3D) images. The conventional method of obtaining saliency maps is linear combination, which often weakens the saliency influence and distorts the original disparity range significantly. In this paper, we propose visual comfort enhancement in S3D images using saliency-adaptive nonlinear disparity mapping. First, we obtain saliency-adaptive disparity maps with visual sensitivity to maintain the disparity-based saliency influence. Then, we perform nonlinear disparity mapping based on a sigmoid function to minimize disparity distortions. Finally, we generate visually comfortable S3D images based on depth-image-based-rendering (DIBR). Experimental results demonstrate that the proposed method successfully improves visual comfort in S3D images by producing comfortable S3D images with high mean opinion score (MOS) while keeping the overall viewing image quality.  相似文献   

17.
Although numerous potential causes may lead to visual discomfort when viewing content on three‐dimensional (3D) displays, vergence–accommodation conflict is a particular cause of binocular parallax‐based stereoscopic displays, and it is unavoidable. Based on the study of 3D content visual attention, we proposed a novel stereoscopic depth adjustment method to improve the visual comfort and enhance perceived naturalness. The proposed method combined the 3D image saliency and specific viewing condition to establish a novel model for computing the optimum zero‐disparity plane of stereoscopic image. The results of perception experiments, focused on visual comfort and stereoscopic sensation, supported that the proposed method can significantly enhance stereoscopic viewing comfort and even can improve the stereoscopic sensation by insuring the 3D image fusion.  相似文献   

18.
A vision based approach for calculating accurate 3D models of the objects is presented. Generally industrial visual inspection systems capable of accurate 3D depth estimation rely on extra hardware tools like laser scanners or light pattern projectors. These tools improve the accuracy of depth estimation but also make the vision system costly and cumbersome. In the proposed algorithm, depth and dimensional accuracy of the produced 3D depth model depends on the existing reference model instead of the information from extra hardware tools. The proposed algorithm is a simple and cost effective software based approach to achieve accurate 3D depth estimation with minimal hardware involvement. The matching process uses the well-known coarse to fine strategy, involving the calculation of matching points at the coarsest level with consequent refinement up to the finest level. Vector coefficients of the wavelet transform-modulus are used as matching features, where wavelet transform-modulus maxima defines the shift invariant high-level features with phase pointing to the normal of the feature surface. The technique addresses the estimation of optimal corresponding points and the corresponding 2D disparity maps leading to the creation of accurate depth perception model.  相似文献   

19.
目的 光场相机可以通过单次曝光同时从多个视角采样单个场景,在深度估计领域具有独特优势。消除遮挡的影响是光场深度估计的难点之一。现有方法基于2D场景模型检测各视角遮挡状态,但是遮挡取决于所采样场景的3D立体模型,仅利用2D模型无法精确检测,不精确的遮挡检测结果将降低后续深度估计精度。针对这一问题,提出了3D遮挡模型引导的光场图像深度获取方法。方法 向2D模型中的不同物体之间添加前后景关系和深度差信息,得到场景的立体模型,之后在立体模型中根据光线的传输路径推断所有视角的遮挡情况并记录在遮挡图(occlusion map)中。在遮挡图引导下,在遮挡和非遮挡区域分别使用不同成本量进行深度估计。在遮挡区域,通过遮挡图屏蔽被遮挡视角,基于剩余视角的成像一致性计算深度;在非遮挡区域,根据该区域深度连续特性设计了新型离焦网格匹配成本量,相比传统成本量,该成本量能够感知更广范围的色彩纹理,以此估计更平滑的深度图。为了进一步提升深度估计的精度,根据遮挡检测和深度估计的依赖关系设计了基于最大期望(exception maximization,EM)算法的联合优化框架,在该框架下,遮挡图和深度图通过互相引导的方式相继提升彼此精度。结果 实验结果表明,本文方法在大部分实验场景中,对于单遮挡、多遮挡和低对比度遮挡在遮挡检测和深度估计方面均能达到最优结果。均方误差(mean square error,MSE)对比次优结果平均降低约19.75%。结论 针对遮挡场景的深度估计,通过理论分析和实验验证,表明3D遮挡模型相比传统2D遮挡模型在遮挡检测方面具有一定优越性,本文方法更适用于复杂遮挡场景的深度估计。  相似文献   

20.
针对先前的立体图像显著性检测模型未充分考虑立体视觉舒适度和视差图分布特征对显著区域检测的影响,提出了一种结合立体视觉舒适度因子的显著性计算模型.该模型在彩色图像显著性提取中,首先利用SLIC算法对输入图像进行超像素分割,随后进行颜色相似区域合并后再进行二维图像显著性计算;在深度显著性计算中,首先对视差图进行预处理;然后基于区域对比度进行显著性计算;最后,结合立体视觉舒适度因子对二维显著图和深度显著图进行融合,得到立体图像显著图.在不同类型立体图像上的实验结果表明,该模型获得了85%的准确率和78%的召回率,优于现有常用的显著性检测模型,并与人眼立体视觉注意力机制保持良好的一致性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号