首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 93 毫秒
1.
深度学习单目深度估计研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
单目深度估计是从单幅图像中获取场景深度信息的重要技术,在智能汽车和机器人定位等领域应用广泛,具有重要的研究价值。随着深度学习技术的发展,涌现出许多基于深度学习的单目深度估计研究,单目深度估计性能也取得了很大进展。本文按照单目深度估计模型采用的训练数据的类型,从3个方面综述了近年来基于深度学习的单目深度估计方法:基于单图像训练的模型、基于多图像训练的模型和基于辅助信息优化训练的单目深度估计模型。同时,本文在综述了单目深度估计研究常用数据集和性能指标基础上,对经典的单目深度估计模型进行了性能比较分析。以单幅图像作为训练数据的模型具有网络结构简单的特点,但泛化性能较差。采用多图像训练的深度估计网络有更强的泛化性,但网络的参数量大、网络收敛速度慢、训练耗时长。引入辅助信息的深度估计网络的深度估计精度得到了进一步提升,但辅助信息的引入会造成网络结构复杂、收敛速度慢等问题。单目深度估计研究还存在许多的难题和挑战。利用多图像输入中包含的潜在信息和特定领域的约束信息,来提高单目深度估计的性能,逐渐成为了单目深度估计研究的趋势。  相似文献   

2.
场景的深度估计问题是计算机视觉领域中的经典问题之一,也是3维重建和图像合成等应用中的一个重要环节。基于深度学习的单目深度估计技术高速发展,各种网络结构相继提出。本文对基于深度学习的单目深度估计技术最新进展进行了综述,回顾了基于监督学习和基于无监督学习方法的发展历程。重点关注单目深度估计的优化思路及其在深度学习网络结构中的表现,将监督学习方法分为多尺度特征融合的方法、结合条件随机场(conditional random field,CRF)的方法、基于序数关系的方法、结合多元图像信息的方法和其他方法等5类;将无监督学习方法分为基于立体视觉的方法、基于运动恢复结构(structure from motion,SfM)的方法、结合对抗性网络的方法、基于序数关系的方法和结合不确定性的方法等5类。此外,还介绍了单目深度估计任务中常用的数据集和评价指标,并对目前基于深度学习的单目深度估计技术在精确度、泛化性、应用场景和无监督网络中不确定性研究等方面的现状和面临的挑战进行了讨论,为相关领域的研究人员提供一个比较全面的参考。  相似文献   

3.
深度估计是一种从单张或者多张图像预测场景深度信息的技术,是计算机视觉领域非常热门的研究方向,在三维重建、场景理解、环境感知等任务中起到了关键作用.当前深度估计技术可以分为多目深度估计和单目深度估计.因为单目摄像头具有成本低、设备较普及、图像获取方便等优点,与多目深度估计技术相比,从单目图像估计深度信息是当前更为热门和更具挑战的技术.近年来,随着深度学习的迅速发展,基于深度学习的单目深度估计方法被广泛研究.本文对基于深度估计的单目深度估计方法进行综述,首先给出单目深度估计问题的定义、介绍常用于训练的数据集与模型评价指标,然后根据不同的训练方式对国内外相关技术进行分析总结,将现有方法分为基于监督学习、无监督学习和半监督学习三大类,对每种类型方法的产生思路、优缺点进行详细分析,最后梳理、总结该技术的发展趋势与关键技术.  相似文献   

4.
空洞空间金字塔池化(ASPP)在深度学习各种任务中均有应用,传统ASPP模块只考虑了提升卷积感受视野,但ASPP中的每次空洞卷积选取的像素点分散,会丢失大量像素点间的信息,而深度估计属于密集预测任务。针对ASPP模块这一弊端提出了一种动态密集的DSPP模块。该模块用一种动态卷积代替空洞卷积,结合ASPP的思想,采用不同大小的卷积尺寸,并结合通道注意力充分利用每一层的特征,解决了ASPP丢失信息的问题,与ASPP相比在大大减小模块参数量的前提下,提升了整体模型的准确率。在NYU Depth v2数据集上与主流算法相比深度图在均方根误差(RMSE)上降低了12.5%,到0.407,并且准确率(δ<1.25)提高了3.4%,达到0.875,验证了算法的有效性。  相似文献   

5.
目前, 大多数的增强现实和自动驾驶应用不仅会使用到深度网络估计的深度信息, 还会使用到位姿网络估计的位姿信息. 将位姿网络和深度网络同时集成到嵌入式设备上, 会极大地消耗内存. 为解决这一问题, 提出一种深度网络和位姿网络共用特征提取器的方法, 使模型保持在一个轻量级的尺寸. 此外, 通过带有线性结构的深度可分离卷积轻量化深度网络, 使网络在不丢失过多细节信息前提下还可获得更少的参数量. 最后, 通过在KITTI数据集上的实验表明, 与同类算法相比, 该位姿网络和深度网络参数量只有的 35.33 MB. 同时, 恢复深度图的平均绝对误差也保持在0.129.  相似文献   

6.
张宇  温光照  米思娅  张敏灵  耿新 《软件学报》2022,33(11):4173-4191
人体姿态估计是计算机视觉领域的一个基础且具有挑战的任务,人体姿态估计对于描述人体姿态、描述人体行为等至关重要,是行为识别、行为检测等计算机视觉任务的基础.近年来,随着深度学习的发展,基于深度学习的人体姿态估计算法展现出了极其优异的效果.从单人人体姿态估计、自顶向下的多人人体姿态估计和自底向上的多人人体姿态估计这3种主流的人体姿态估计方式,介绍近年来基于深度学习的二维人体姿态估计算法的发展,并讨论目前二维人体姿态估计所面临的困难和挑战.最后,对人体姿态估计未来的发展做出展望.  相似文献   

7.
生成对抗网络(GAN)算法在室外场景的深度估计任务中准确率较低,对于物体边界判断不准确。针对该问题,提出基于循环生成对抗网络(CycleGAN)的单目深度估计算法,将单幅图像映射到深度图像的过程拆分为两个子阶段。第一阶段中,网络学习图像的基本空间特征,得到粗糙尺度下的深度图像;第二阶段在前者的基础上,通过细节上的差异对比,优化深度图像,得到精细尺度下的深度图像。为了进一步提高深度估计的精度,在损失函数中引入了L1距离,让网络可以学习像素到像素的映射关系,避免出现较大的偏差与失真。在公开的室外场景数据集Make3D上的实验结果表明,与同类型算法相比,该算法的平均相对误差、均方根误差取得更好的效果。  相似文献   

8.
在室内单目视觉导航任务中,场景的深度信息十分重要.但单目深度估计是一个不适定问题,精度较低.目前, 2D激光雷达在室内导航任务中应用广泛,且价格低廉.因此,本文提出一种融合2D激光雷达的室内单目深度估计算法来提高深度估计精度.本文在编解码结构上增加了2D激光雷达的特征提取,通过跳跃连接增加单目深度估计结果的细节信息,并提出一种运用通道注意力机制融合2D激光雷达特征和RGB图像特征的方法.本文在公开数据集NYUDv2上对算法进行验证,并针对本文算法的应用场景,制作了带有2D激光雷达数据的深度数据集.实验表明,本文提出的算法在公开数据集和自制数据集中均优于现有的单目深度估计.  相似文献   

9.
场景深度估计是场景理解的一项基本任务,其准确率反映了计算机对场景的理解程度.传统的深度估计利用金字塔池化(ASPP)模块可以在不改变图像分辨率的情况下处理不同像素特征,但该模块未考虑不同像素特征之间的关系,导致场景特征提取不准确.针对ASPP模块在深度估计中出现的弊端,提出了一种改进型的ASPP模块,解决了该模块在图像...  相似文献   

10.
研究深度估计和语义分割的图像之间的互利关系,提出了一种联合语义分割的自监督单目深度估计方法 USegDepth.语义分割和深度估计任务通过共享编码器,实现语义引导.为了进一步提高编码器的跨多任务性能,设计了多任务特征提取模块,堆叠该模块构成共享编码器,解决有限感受野和缺乏跨通道交互导致的模型特征表示能力欠佳问题,进一步提升模型精度.同时,提出跨任务交互模块,通过双向的跨域信息交互细化特征表示,提升深度估计表现,特别是光度一致性监督有限的弱纹理区域和物体边界.通过在KITTI数据集上的训练和全面评估,实验结果显示所提的USegDepth模型方法的均方相对误差相比于SGDepth降低了0.176个百分点,在阈值为1.253的阈值精度达到了98.4%,证明了USegDepth在深度预测上具有较高的准确率.  相似文献   

11.
目的 无监督单目图像深度估计是3维重建领域的一个重要方向,在视觉导航和障碍物检测等领域具有广泛的应用价值。针对目前主流方法存在的局部可微性问题,提出了一种基于局部平面参数预测的方法。方法将深度估计问题转化为局部平面参数估计问题,使用局部平面参数预测模块代替多尺度估计中上采样及生成深度图的过程。在每个尺度的深度图预测中根据局部平面参数恢复至标准尺度,然后依据针孔相机模型得到标准尺度深度图,以避免使用双线性插值带来的局部可微性,从而有效规避陷入局部极小值,配合在网络跳层连接中引入的串联注意力机制,提升网络的特征提取能力。结果 在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)自动驾驶数据集上进行了对比实验以及消融实验,与现存无监督方法和部分有监督方法进行对比,相比于最优数据,误差性指标降低了10% 20%,准确性指标提升了2%左右,同时,得到的稠密深度估计图具有清晰的边缘轮廓以及对反射区域更优的鲁棒性。结论 本文提出的基于局部平面参数预测的深度估计方法,充分利用卷积特征信息,避免了训练过程中陷入局部极小值,同时对网络添加几何约束,使测试指标及视觉效果更加优秀。  相似文献   

12.
光场相机目前已广泛应用于消费领域和工业应用领域,利用光场相机对目标物进行深度重建成为了一项重要的研究课题。在实际研究过程中,Lytro相机空间信息与角度信息复用于同一传感器,导致图像分辨率较低,从而使得重建效果不甚理想。为解决这一问题,提出了一种亚像素精度的光场图像深度估计方法,在频率域对子孔径图像进行多标签下的亚像素偏移,以中心视角图像为参照,建立像素匹配代价行为;使用引导滤波抑制噪声的同时保持了图像边缘;对多标签下的匹配代价行为进行优化,得到精确的深度估计结果。对目标深度图进行表面渲染、纹理映射等重建处理,得到较为精细的重建结果。实验结果表明,该算法在对复杂度较高的物体进行重建时,解决了重建模糊等问题,有较好的表现。  相似文献   

13.
针对计算机视觉理解单目图像立体结构的问题,进行了单目图像深度估计算法的研究。提出了一种基于监督学习方法的室外单目图像深度估计算法,其采用语义标注信息指导深度估计过程,融合绝对深度特征、相对深度特征以及位置特征作为深度特征向量,采用LLOM学习深度特征向量与深度值之间的关系。实验结果显示,该算法对路面、草地以及建筑物类等深度渐进变化的图像块,可获得较满意的深度估计结果。本算法为单目图像深度估计开辟了一个全新的有效途径。  相似文献   

14.
大多数现有的基于深度学习的手势姿态估计方法都使用标准三维卷积神经网络提取三维特征,估计手部关节坐标。该方法提取的特征缺乏手部的多尺度信息,限制了手势姿态估计的精度。另外,由于三维卷积神经网络巨大的计算成本和内存需求,这些方法常难以满足实时性要求。为了克服这些缺点,提出以空间滤波器和深度滤波器级联的方式模拟三维卷积,减少网络参数量。同时,在各个尺度上提取手势姿态特征并加以整合,充分利用手势的三维信息。实验表明,该方法能有效提高手势姿态估计精度,减小模型尺寸,且在具有单块GPU的计算机上能以超过119 fps的速度运行。  相似文献   

15.
This paper presents a novel solution to the problem of depth estimation using a monocular camera undergoing known motion. Such problems arise in machine vision where the position of an object moving in three-dimensional space has to be identified by tracking motion of its projected feature on the two-dimensional image plane. The camera is assumed to be uncalibrated, and an adaptive observer yielding asymptotic estimates of focal length and feature depth is developed that precludes prior knowledge of scene geometry and is simpler than alternative designs. Experimental results using real camera imagery are obtained with the current scheme as well as the extended Kalman filter, and performance of the proposed observer is shown to be better than the extended Kalman filter-based framework.  相似文献   

16.
Abstract— This paper considers the architecture and the effectiveness of new algorithms that control the subjective depth on 3‐D displays by modulating the contrast of stereoscopic pictures on the basis of a quantified monocular depth cue. First, a psychophysical experiment to quantify the relationship between contrast and subjective depth was conducted. This experimental result shows that the higher the contrast, the nearer the object will be perceived, corresponding to the qualitative relationship. Second, this result was applied to image‐processing algorithms that expand or contract the subjective depth of stereoscopic pictures. Subjective assessments to verify the effectiveness of the algorithms were also conducted. The results suggest that the algorithms will allow viewers to experience a highly realistic sensation.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号