首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
深度学习单目深度估计研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
单目深度估计是从单幅图像中获取场景深度信息的重要技术,在智能汽车和机器人定位等领域应用广泛,具有重要的研究价值。随着深度学习技术的发展,涌现出许多基于深度学习的单目深度估计研究,单目深度估计性能也取得了很大进展。本文按照单目深度估计模型采用的训练数据的类型,从3个方面综述了近年来基于深度学习的单目深度估计方法:基于单图像训练的模型、基于多图像训练的模型和基于辅助信息优化训练的单目深度估计模型。同时,本文在综述了单目深度估计研究常用数据集和性能指标基础上,对经典的单目深度估计模型进行了性能比较分析。以单幅图像作为训练数据的模型具有网络结构简单的特点,但泛化性能较差。采用多图像训练的深度估计网络有更强的泛化性,但网络的参数量大、网络收敛速度慢、训练耗时长。引入辅助信息的深度估计网络的深度估计精度得到了进一步提升,但辅助信息的引入会造成网络结构复杂、收敛速度慢等问题。单目深度估计研究还存在许多的难题和挑战。利用多图像输入中包含的潜在信息和特定领域的约束信息,来提高单目深度估计的性能,逐渐成为了单目深度估计研究的趋势。  相似文献   

2.
三维场景建模及三维多目标检测识别等研究中需要获取高精度、高分辨率深度图,针对RGB-D传感器提供的深度信息存在分辨率低、深度值缺失和噪声干扰等问题,提出一种基于深度置信度的分层联合双边滤波深度图修复算法。基于深度信息获取存在的问题提出相应的深度退化模型,采用深度置信度测量对深度像素进行置信度分类,根据深度置信度确定滤波器窗口权重值,利用提出的分层联合双边滤波算法在待修复区域完成深度图修复。采用Middlebury标准数据库和自采数据库进行定性对比实验和定量结果分析表明,该算法对深度图修复后边缘更加清晰合理,消除了边缘模糊和纹理伪像,有效提高了三维深度图修复的精确度。  相似文献   

3.
目的 深度图像作为一种普遍的3维场景信息表达方式在立体视觉领域有着广泛的应用。Kinect深度相机能够实时获取场景的深度图像,但由于内部硬件的限制和外界因素的干扰,获取的深度图像存在分辨率低、边缘不准确的问题,无法满足实际应用的需要。为此提出了一种基于彩色图像边缘引导的Kinect深度图像超分辨率重建算法。方法 首先对深度图像进行初始化上采样,并提取初始化深度图像的边缘;进一步利用高分辨率彩色图像和深度图像的相似性,采用基于结构化学习的边缘检测方法提取深度图的正确边缘;最后找出初始化深度图的错误边缘和深度图正确边缘之间的不可靠区域,采用边缘对齐的策略对不可靠区域进行插值填充。结果 在NYU2数据集上进行实验,与8种最新的深度图像超分辨率重建算法作比较,用重建之后的深度图像和3维重建的点云效果进行验证。实验结果表明本文算法在提高深度图像的分辨率的同时,能有效修正上采样后深度图像的边缘,使深度边缘与纹理边缘对齐,也能抑制上采样算法带来的边缘模糊现象;3维点云效果显示,本文算法能准确区分场景中的前景和背景,应用于3维重建等应用能取得较其他算法更好的效果。结论 本文算法普遍适用于Kinect深度图像的超分辨率重建问题,该算法结合同场景彩色图像与深度图像的相似性,利用纹理边缘引导深度图像的超分辨率重建,可以得到较好的重建结果。  相似文献   

4.
Typical depth quality metrics require the ground truth depth image or stereoscopic color image pair, which are not always available in many practical applications. In this paper, we propose a new depth image quality metric which demands only a single pair of color and depth images. Our observations reveal that the depth distortion is strongly related to the local image characteristics, which in turn leads us to formulate a new distortion assessment method for the edge and non-edge pixels in the depth image. The local depth distortion is adaptively weighted using the Gabor filtered color image and added up to the global depth image quality metric. The experimental results show that the proposed metric closely approximates the depth quality metrics that use the ground truth depth or stereo color image pair.  相似文献   

5.
目的 深度相机能够对场景的深度信息进行实时动态捕捉,但捕获的深度图像分辨率低且容易形成空洞。利用高分辨率彩色图像作为引导,是深度图超分辨率重建的重要方式。现有方法对彩色边缘与深度不连续区域的不一致性问题难以有效解决,在深度图超分辨率重建中引入了纹理复制伪影。针对这一问题,本文提出了一种鲁棒的彩色图像引导的深度图超分辨率重建算法。方法 首先,利用彩色图像边缘与深度图像边缘的结构相关性,提出RGB-D结构相似性度量,检测彩色图像与深度图像共有的边缘不连续区域,并利用RGB-D结构相似性度量自适应选取估计像素点邻域的最优图像块。接着,通过提出的定向非局部均值权重,在图像块区域内建立多边引导下的深度估计,解决彩色边缘和深度不连续区域的结构不一致性。最后,利用RGB-D结构相似性度量与图像平滑性之间的对应关系,对多边引导权重的参数进行自适应调节,实现鲁棒的深度图超分辨率重建。结果 在Middlebury合成数据集、ToF和Kinect数据集以及本文自建数据集上的实验结果表明,相比其他先进方法,本文方法能够有效抑制纹理复制伪影。在Middlebury、ToF和Kinect数据集上,本文方法相较于次优算法,平均绝对偏差平均降低约63.51%、39.47 %和7.04 %。结论 对于合成数据集以及真实场景的深度数据集,本文方法均能有效处理存在于彩色边缘和深度不连续区域的不一致性问题,更好地保留深度边缘的不连续性。  相似文献   

6.
Large holes are unavoidably generated in depth image based rendering (DIBR) using a single color image and its associated depth map. Such holes are mainly caused by disocclusion, which occurs around the sharp depth discontinuities in the depth map. We propose a divide-and-conquer hole-filling method which refines the background depth pixels around the sharp depth discontinuities to address the disocclusion problem. Firstly, the disocclusion region is detected according to the degree of depth discontinuity, and the target area is marked as a binary mask. Then, the depth pixels located in the target area are modified by a linear interpolation process, whose pixel values decrease from the foreground depth value to the background depth value. Finally, in order to remove the isolated depth pixels, median filtering is adopted to refine the depth map. In these ways, disocclusion regions in the synthesized view are divided into several small holes after DIBR, and are easily filled by image inpainting. Experimental results demonstrate that the proposed method can effectively improve the quality of the synthesized view subjectively and objectively.  相似文献   

7.
为了对过程工业的生产过程进行质量监控,提出了一种基于数据深度的故障检测方法。选取较为易用的马氏深度与空间深度,同时为了提高空间深度对位置偏离程度的敏感性,引入高斯核函数将其核化,借助深度函数(马氏深度、核空间深度)将高维过程数据映射成一维深度值,再结合非参数秩统计量构造渐近分布进行故障判断。通过田纳西-伊士曼(TE)仿真实验,参考误报警率和检测效率两个指标,并将故障检测效果与其他方法进行对比,验证了所提方法的有效性。  相似文献   

8.
Implementing an interactive mixed reality simulation system is an economical and risk-free method for skill training. However, research to enhance the accuracy of mixed reality simulation has always been a challenge. One of the key indicators of a simulation's accuracy is the user's depth perception. Adding depth cues to the simulation scene can effectively increase the accuracy of depth perception. Therefore, in this study, we designed five depth cues to find the one most beneficial for depth perception: (1) depth bar, (2) location ball, (3) fixed window, (4) 3D wireframe, and (5) movable silhouettes. These depth cues were tested using an experimental system with two sets of experimental settings. The first experiment compared the five depth cues at five different viewing distances and showed that the movable silhouettes benefited depth perception accuracy the most. The second experiment compared depth perception accuracies among three different horizontal tilt settings, showing that depth perception accuracy is dependent on the horizontal tilt. Furthermore, different depth perception accuracies were obtained with and without depth cues, proving that the effects from the horizontal tilts were independent of depth cues. The results of these studies provide references for designing interactive mixed reality simulation systems.  相似文献   

9.
Visual depth cues are combined to produce the essential depth and dimensionality of Desktop Virtual Environments (DVEs). This study discusses DVEs in terms of the visual depth cues that create and support perception of frames of references and accomplishment of visual search tasks. This paper presents the results of an investigation that identifies the effects of the experimental stimuli positions and visual depth cues: luminance, texture, relative height and motion parallax on precise depth judgements made within a DVE. Results indicate that the experimental stimuli positions significantly affect precise depth judgements, texture is only significantly effective for certain conditions, and motion parallax, in line with previous results, is inconclusive to determine depth judgement accuracy for egocentrically viewed DVEs. Results also show that exocentric views, incorporating relative height and motion parallax visual cues, are effective for precise depth judgements made in DVEs. The results help us to understand the effects of certain visual depth cues to support the perception of frames of references and precise depth judgements, suggesting that the visual depth cues employed to create frames of references in DVEs may influence how effectively precise depth judgements are undertaken.  相似文献   

10.
单幅图像深度估计是计算机视觉中的经典问题,对场景的3维重建、增强现实中的遮挡及光照处理具有重要意义。本文回顾了单幅图像深度估计技术的相关工作,介绍了单幅图像深度估计常用的数据集及模型方法。根据场景类型的不同,数据集可分为室内数据集、室外数据集与虚拟场景数据集。按照数学模型的不同,单目深度估计方法可分为基于传统机器学习的方法与基于深度学习的方法。基于传统机器学习的单目深度估计方法一般使用马尔可夫随机场(MRF)或条件随机场(CRF)对深度关系进行建模,在最大后验概率框架下,通过能量函数最小化求解深度。依据模型是否包含参数,该方法又可进一步分为参数学习方法与非参数学习方法,前者假定模型包含未知参数,训练过程即是对未知参数进行求解;后者使用现有的数据集进行相似性检索推测深度,不需要通过学习来获得参数。对于基于深度学习的单目深度估计方法本文详细阐述了国内外研究现状及优缺点,同时依据不同的分类标准,自底向上逐层级将其归类。第1层级为仅预测深度的单任务方法与同时预测深度及语义等信息的多任务方法。图片的深度和语义等信息关联密切,因此有部分工作研究多任务的联合预测方法。第2层级为绝对深度预测方法与相对深度关系预测方法。绝对深度是指场景中的物体到摄像机的实际距离,而相对深度关注图片中物体的相对远近关系。给定任意图片,人的视觉更擅于判断场景中物体的相对远近关系。第3层级包含有监督回归方法、有监督分类方法及无监督方法。对于单张图片深度估计任务,大部分工作都关注绝对深度的预测,而早期的大多数方法采用有监督回归模型,即模型训练数据带有标签,且对连续的深度值进行回归拟合。考虑到场景由远及近的特性,也有用分类的思想解决深度估计问题的方法。有监督学习方法要求每幅RGB图像都有其对应的深度标签,而深度标签的采集通常需要深度相机或激光雷达,前者范围受限,后者成本昂贵。而且采集的原始深度标签通常是一些稀疏的点,不能与原图很好地匹配。因此不用深度标签的无监督估计方法是研究趋势,其基本思路是利用左右视图,结合对极几何与自动编码机的思想求解深度。  相似文献   

11.
温静  杨洁 《计算机工程》2023,49(2):222-230
现有单目深度估计算法主要从单幅图像中获取立体信息,存在相邻深度边缘细节模糊、明显的对象缺失问题。提出一种基于场景对象注意机制与加权深度图融合的单目深度估计算法。通过特征矩阵相乘的方式计算特征图任意两个位置之间的相似特征向量,以快速捕获长距离依赖关系,增强用于估计相似深度区域的上下文信息,从而解决自然场景中对象深度信息不完整的问题。基于多尺度特征图融合的优点,设计加权深度图融合模块,为具有不同深度信息的多视觉粒度的深度图赋予不同的权值并进行融合,融合后的深度图包含深度信息和丰富的场景对象信息,有效地解决细节模糊问题。在KITTI数据集上的实验结果表明,该算法对目标图像预估时σ<1.25的准确率为0.879,绝对相对误差、平方相对误差和对数均方根误差分别为0.110、0.765和0.185,预测得到的深度图具有更加完整的场景对象轮廓和精确的深度信息。  相似文献   

12.
针对单一的激光传感器或视觉传感器无法检测到透视三维平面的问题,提出一种基于激光传感器与视觉传感器融合的透视平面检测与深度预测算法;首先采用透视平面检测网络,在二维彩色图像中对透视平面进行图像分割;其次应用单一图像反射去除算法,在分割得到的透视平面区域分离背景信息,并使用MegaDepth算法进行深度预测,得到相对深度图;最后结合激光传感器的深度数据,采用抽样一致性算法,计算深度标尺,并使用对透视平面进行深度赋值,将相对深度图转化为绝对深度图,进而完成对透视平面的深度预测;实验结果表明该算法能成功检测并分割透视平面,且能得到正确的透视平面绝对深度信息.  相似文献   

13.
油井动液面深度计算一直是油田行业关注的重要课题,高效、准确地获取井下液面的动态深度信息对石油行业发展至关重要。为此,针对油井动液面的深度测算受环境噪声的影响而导致计算误差较大的问题,研究基于声波法的油井动液面深度估计与预测算法。通过设计改进型短时能量过零函数和三电中心削波函数,以及融合多渠道液面位置估计信息,获得动态液面的深度估计算法;将此法获得的液面位置和平均声速作为LSTM神经网络的输入,以及实测液面深度作为期望输出,获得可预测液面深度的预测模型。比较性的实验结果表明,所获液面深度计算算法较之短时能量和短时能量过零函数法,更能有效测算动液面深度;得到的预测模型能有效预测不同时段声波下的液面深度。  相似文献   

14.
目的 在室内场景语义分割任务中,深度信息会在一定程度上提高分割精度。但是如何更有效地利用深度信息仍是一个开放性问题。当前方法大都引入全部深度信息,然而将全部深度信息和视觉特征组合在一起可能对模型产生干扰,原因是仅依靠视觉特征网络模型就能区分的不同物体,在引入深度信息后可能产生错误判断。此外,卷积核固有的几何结构限制了卷积神经网络的建模能力,可变形卷积(deformable convolution,DC)在一定程度上缓解了这个问题。但是可变形卷积中产生位置偏移的视觉特征空间深度信息相对不足,限制了进一步发展。基于上述问题,本文提出一种深度信息引导的特征提取(depth guided feature extraction,DFE)模块。方法 深度信息引导的特征提取模块包括深度信息引导的特征选择模块(depth guided feature selection,DFS)和深度信息嵌入的可变形卷积模块(depth embedded deformable convolution,DDC)。DFS可以筛选出关键的深度信息,自适应地调整深度信息引入视觉特征的比例,在网络模型需要时将深度信息嵌入视觉特征。DDC在额外深度信息的引入下,增强了可变形卷积的特征提取能力,可以根据物体形状提取更相关的特征。结果 为了验证方法的有效性,在NYUv2(New York University Depth Dataset V2)数据集上进行一系列消融实验并与当前最好的方法进行比较,使用平均交并比(mean intersection over union,mIoU)和平均像素准确率(pixel accuracy,PA)作为度量标准。结果显示,在NYUv2数据集上,本文方法的mIoU和PA分别为51.9%和77.6%,实现了较好的分割效果。结论 本文提出的深度信息引导的特征提取模块,可以自适应地调整深度信息嵌入视觉特征的程度,更加合理地利用深度信息,且在深度信息的作用下提高可变形卷积的特征提取能力。此外,本文提出的深度信息引导的特征提取模块可以比较方便地嵌入当下流行的特征提取网络中,提高网络的建模能力。  相似文献   

15.
针对传统单幅图像深度估计线索不足及深度估计精度不准的问题,提出一种基于非参数化采样的单幅图像深度估计方法。该方法利用非参数化的学习手段,将现有RGBD数据集中的深度信息迁移到输入图像中去。首先计算输入图像和现有RGBD数据集多尺度的高层次图像特征;然后,在现有RGBD数据集中,基于高层次的图像特征通过kNN最近邻搜索找到若干与输入图像特征最匹配的候选图像,并将这些候选图像对通过SIFT流形变到输入图像进行对齐。最后,对候选深度图进行插值和平滑等优化操作便可以得到最后的深度图。实验结果表明,与现有算法相比,该方法估计得到的深度图精度更高,对输入图像的整体结构保持得更好。  相似文献   

16.
Conventional depth video compression uses video codecs designed for color images. Given the performance of current encoding standards, this solution seems efficient. However, such an approach suffers from many issues stemming from discrepancies between depth and light perception. To exploit the inherent limitations of human depth perception, we propose a novel depth compression method that employs a disparity perception model. In contrast to previous methods, we account for disparity masking, and model a distinct relation between depth perception and contrast in luminance. Our solution is a natural extension to the H.264 codec and can easily be integrated into existing decoders. It significantly improves both the compression efficiency without sacrificing visual quality of depth of rendered content, and the output of depth‐reconstruction algorithms or depth cameras.  相似文献   

17.
The recovery of depth from defocused images involves calculating the depth of various points in a scene by modeling the effect that the focal parameters of the camera have on images acquired with a small depth of field. In the approach to depth from defocus (DFD), previous methods assume the depth to be constant over fairly large local regions and estimate the depth through inverse filtering by considering the system to be shift-invariant over those local regions. But a subimage when analyzed in isolation introduces errors in the estimate of the depth. In this paper, we propose two new approaches for estimating the depth from defocused images. The first approach proposed here models the DFD system as a block shift-variant one and incorporates the interaction of blur among neighboring subimages in an attempt to improve the estimate of the depth. The second approach looks at the depth from defocus problem in the space-frequency representation framework. In particular, the complex spectrogram and the Wigner distribution are shown to be likely candidates for recovering the depth from defocused images. The performances of the proposed methods are tested on both synthetic and real images. The proposed methods yield good results and the quality of the estimates obtained using these methods is compared with the existing method.  相似文献   

18.
The virtual reality (VR) and augmented reality (AR) applications have been widely used in a variety of fields; one of the key requirements in a VR or AR system is to understand how users perceive depth in the virtual environment and AR. Three different graphics depth cues are designed in shuffleboard to explore what kind of graphics depth cues are beneficial for depth perception. We also conduct a depth‐matching experiment to compare performance in VR and AR systems using an optical see‐through head‐mounted display (HMD). The result shows that the absolute error increases as the distance becomes farther. Analysis from the inverse of distance shows that box depth cues have a significant effect on depth perception, while the points depth cues and line depth cues have no significant effect. The error in diopter in AR experiment is lower than that in VR experiment. Participants in the AR experiment under medium illuminance condition have less error than those under low and high illuminance conditions. Men have less error than women in certain display conditions, but the advantage disappears when there is a strong depth cue. Besides, there is no significant effect of completion time on depth perception.  相似文献   

19.
针对虚拟视点合成系统中虚拟视点的绘制质量不高,主观效果不理想的问题,同时为了提高自由视点电视系统中的深度图压缩性能,对基于下/上采样的深度图编码方法中的深度图滤波及上采样方法进行了研究.首先,根据深度图的特性使用H.264/MVC对深度图进行下采样压缩.其次,提出使用(A)-Trous小波滤波器对解码后的低分辨率深度图进行滤波,减少由编码器引入的块效应,继而提出多相似度自适应权重上采样方法恢复原始分辨率深度图.最后,使用上采样后的深度图与未压缩的彩色视频序列进行虚拟视点合成,通过虚拟视点的峰值信噪比(PSNR)来衡量客观绘制质量.实验结果显示,使用提出的中值滤波和多相似度上采样方法与(A)-Trous小波滤波和多相似度上采样方法生成的虚拟视点的PSNR分别比自适应权值上采样方法提高至少0.04 dB和0.22 dB,而且后者极大程度上改善了虚拟视点的主观绘制质量.  相似文献   

20.
目的 针对高效3维视频编码标准(3D-HEVC)深度视频编码复杂度高和获取不准确的两个问题,现有算法单独进行处理,并没有进行联合优化。为了同时提升深度视频编码速度和编码效率,提出一种联合深度视频增强处理和帧内快速编码的方法。方法 首先,引入深度视频空域增强处理,消除深度视频中的虚假纹理信息,增强其空域相关性,为编码单元(CU)划分和预测模式选择提供进一步优化的空间;然后,针对增强处理过的深度视频的空域特征,利用纹理复杂度将CU进行分类,提前终止平坦CU的分割过程,减少了CU分割次数;最后,利用边缘强度对预测单元(PU)进行分类,跳过低边缘强度PU的深度模型模式。结果 实验结果表明,与原始3D-HEVC的算法相比,本文算法平均节省62.91%深度视频编码时间,并且在相同虚拟视点质量情况下节省4.63%的码率。与当前代表性的帧内低复杂度编码算法相比,本文算法深度视频编码时间进一步减少26.10%,相同虚拟视点质量情况下,编码码率节省5.20%。结论 该方法通过深度视频增强处理,保证了虚拟视点质量,提升了编码效率。对深度视频帧内编码过程中复杂度较高的CU划分和预测模式选择分别进行优化,减少了率失真代价计算次数,有效地降低了帧内编码复杂度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号