首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
深度学习单目深度估计研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
单目深度估计是从单幅图像中获取场景深度信息的重要技术,在智能汽车和机器人定位等领域应用广泛,具有重要的研究价值。随着深度学习技术的发展,涌现出许多基于深度学习的单目深度估计研究,单目深度估计性能也取得了很大进展。本文按照单目深度估计模型采用的训练数据的类型,从3个方面综述了近年来基于深度学习的单目深度估计方法:基于单图像训练的模型、基于多图像训练的模型和基于辅助信息优化训练的单目深度估计模型。同时,本文在综述了单目深度估计研究常用数据集和性能指标基础上,对经典的单目深度估计模型进行了性能比较分析。以单幅图像作为训练数据的模型具有网络结构简单的特点,但泛化性能较差。采用多图像训练的深度估计网络有更强的泛化性,但网络的参数量大、网络收敛速度慢、训练耗时长。引入辅助信息的深度估计网络的深度估计精度得到了进一步提升,但辅助信息的引入会造成网络结构复杂、收敛速度慢等问题。单目深度估计研究还存在许多的难题和挑战。利用多图像输入中包含的潜在信息和特定领域的约束信息,来提高单目深度估计的性能,逐渐成为了单目深度估计研究的趋势。  相似文献   

2.
从深度图RGB-D域中联合学习RGB图像特征与3D几何信息有利于室内场景语义分割,然而传统分割方法通常需要精确的深度图作为输入,严重限制了其应用范围。提出一种新的室内场景理解网络框架,建立基于语义特征与深度特征提取网络的联合学习网络模型提取深度感知特征,通过几何信息指导的深度特征传输模块与金字塔特征融合模块将学习到的深度特征、多尺度空间信息与语义特征相结合,生成具有更强表达能力的特征表示,实现更准确的室内场景语义分割。实验结果表明,联合学习网络模型在NYU-Dv2与SUN RGBD数据集上分别取得了69.5%与68.4%的平均分割准确度,相比传统分割方法具有更好的室内场景语义分割性能及更强的适用性。  相似文献   

3.
温静  杨洁 《计算机工程》2023,49(2):222-230
现有单目深度估计算法主要从单幅图像中获取立体信息,存在相邻深度边缘细节模糊、明显的对象缺失问题。提出一种基于场景对象注意机制与加权深度图融合的单目深度估计算法。通过特征矩阵相乘的方式计算特征图任意两个位置之间的相似特征向量,以快速捕获长距离依赖关系,增强用于估计相似深度区域的上下文信息,从而解决自然场景中对象深度信息不完整的问题。基于多尺度特征图融合的优点,设计加权深度图融合模块,为具有不同深度信息的多视觉粒度的深度图赋予不同的权值并进行融合,融合后的深度图包含深度信息和丰富的场景对象信息,有效地解决细节模糊问题。在KITTI数据集上的实验结果表明,该算法对目标图像预估时σ<1.25的准确率为0.879,绝对相对误差、平方相对误差和对数均方根误差分别为0.110、0.765和0.185,预测得到的深度图具有更加完整的场景对象轮廓和精确的深度信息。  相似文献   

4.
针对单目同时定位与地图构建(simultan-eous localization and mapping,SLAM)技术存在的尺度不确定性问题,提出一种结合深度预测网络来估计绝对尺度的单目SLAM算法.利用MonoDepth网络对单目图像进行深度预测,与从单目图像中提取的O RB特征点进行深度值的数据关联,通过设定深度阈值的方法剔除具有不可靠深度值的特征点,恢复单目的绝对尺度,根据特征点的真实深度信息,通过光束法平差优化位姿图,校正尺度漂移,减少累积误差.通过室外KIT-TI数据集进行对比实验,其结果表明,该方法能够获得更高的定位精度.  相似文献   

5.
使用深度学习方法进行单目深度估计时,由于使用多级下采样会出现重建结果细节信息缺失、边缘轮廓模糊等问题.为此,提出一种基于高分辨率网络的自监督单目深度估计方法.首先,通过并行连接使得特征图在编码过程中始终保持高分辨率表示,以充分地保留细节信息;其次,为了提高编码器的学习能力,在编码部分引入注意力模块,对图像特征进行筛选和提炼;最后,针对深度估计的多义性问题,利用非相邻帧图像之间的一致性,设计了一种有效的损失函数,并使用可靠性掩膜来消除动点和遮挡点的干扰.在TensorFlow框架下采用KITTI和Cityscapes数据集进行实验,实验结果表明,与已有深度估计方法相比,该方法不仅能够保留预测深度的边缘信息,而且能够提高预测深度的准确性,可达到0.119的平均相对误差.  相似文献   

6.
现有的SLAM方案中,单目SLAM系统无法满足高精度定位。因此提出了一种基于深度估计网络的SLAM系统。此系统在ORB-SLAM的系统上,融合了Sobel边界引导和场景聚合网络(sobel-boundary-induced and scene-aggregated network,SS-Net)的系统,仅依靠单目实现精准定位。SS-Net考虑了不同区域的深度关系和边界在深度预测中的重要特征。基于边界引导和场景聚合网络(boundary-induced and scene-aggregated network,BS-Net),SS-Net提出了边界提取模块(edge detection,ED),改进了图像细化模块(stripe refinement,SR)。SS-Net网络能够考虑不同区域之间的深度相关性,提取重要的边缘,并融合不同层次下面的网络特征,可以处理单帧图像,从而获得整个序列的深度估计。在NYUD v2和TUM数据集上的大量实验表明,SS-Net深度预测有较高的准确性,并且证明了基于SS-Net的SLAM系统比原系统更优秀。  相似文献   

7.
针对传统方法在单目图像深度估计时精度低、速度慢等问题,提出一种全卷积编码-解码网络模型,该模型将稀疏的深度样本集和RGB图像作为输入,编码层由Resnet和一个卷积层组成,解码层由两个上采样层和一个双线性上采样层组成,上采样层采用上卷积模块和上投影模块交叉使用,有效降低了棋盘效应并保留了预测深度图像的边缘信息。同时,模型中使用了全卷积,使得参数减少,提升了预测速度。在NYU-Depth-v2数据集上验证了网络模型的有效性与优越性。实验结果表明,在仅使用RGB图像进行深度预测的情况下,与多尺度卷积神经网络相比,该模型在精度[δ<1.25]上提高约4%,均方根误差指标降低约11%;与仅使用RGB图像相比,添加100个空间随机深度样本,均方根误差降低约26%。  相似文献   

8.
针对三维场景深度信息观测稀疏问题,提出一种融合彩色图像的多引导结构感知网络模型以补全稀疏深度.首先,利用三维平面法向量与场景梯度信息之间的映射关系,设计一种两分支主干网络框架,结合图像特征和几何特征进行深度预测,以充分提取空间位置信息的特征表示;然后,考虑到大范围场景下不同物体的结构差异性,基于网络通道注意力机制设计一种自适应感受野的结构感知模块,以对不同尺度的信息进行表征;最后,在网络采样的过程中,以不同尺寸图像为指导对预测子深度图进行滤波并修复物体的边缘细节.公开数据集上的实验结果表明,所设计的深度补全算法可以获得准确的稠密深度,同时通过两个下游感知任务进行深入评估,表明利用所提出方法能够有效提升其他感知任务的效果.  相似文献   

9.
基于DenseNet的单目图像深度估计   总被引:1,自引:0,他引:1       下载免费PDF全文
深度信息的获取是场景解析中是非常重要的环节,主要分为传感器获取与图像处理两种方法。传感器技术对环境要求很高,因此图像处理为更通用的方法。传统的方法通过双目立体标定,利用几何关系得到深度,但仍因为环境因素限制诸多。因此,作为最贴近实际情况的方法,单目图像深度估计具有极大研究价值。为此,针对单目图像深度估计,提出了一种基于DenseNet的单目图像深度估计方法,该方法利用多尺度卷积神经网络分别采集全局特征、局部特征;加入了DenseNet结构,利用DenseNet强特征传递、特征重用等特点,优化特征采集过程。通过NYU Depth V2数据集上验证了模型的有效性,实验结果表明,该方法的预测结果平均相对误差为0.119,均方根误差为0.547,对数空间平均误差为0.052。  相似文献   

10.
针对单目深度估计网络庞大的参数量和计算量,提出一种轻量金字塔解码结构的单目深度估计网络,可以在保证估计精度的情况下降低网络模型的复杂度、减少运算时间。该网络基于编解码结构,以端到端的方式估计单目图像的深度图。编码端使用ResNet50网络结构;在解码端提出了一种轻量金字塔解码模块,采用深度空洞可分离卷积和分组卷积以提升感受野范围,同时减少了参数量,并且采用金字塔结构融合不同感受野下的特征图以提升解码模块的性能;此外,在解码模块之间增加跳跃连接实现知识共享,以提升网络的估计精度。在NYUD v2数据集上的实验结果表明,与结构注意力引导网络相比,轻量金字塔解码结构的单目深度估计网络在误差RMS的指标上降低约11.0%,计算效率提升约84.6%。  相似文献   

11.
王亚群  戴华林  王丽  李国燕 《计算机工程》2021,47(11):262-267,291
为解决目前单目图像深度估计方法存在的精度低、网络结构复杂等问题,提出一种密集卷积网络结构,该网络采用端到端的编码器和解码器结构。编码器引入密集卷积网络DenseNet,将前面每一层的输出作为本层的输入,在加强特征重用和前向传播的同时减少参数量和网络计算量,从而避免梯度消失问题发生。解码器结构采用带有空洞卷积的上投影模块和双线性插值模块,以更好地表达由编码器所提取的图像特征,最终得到与输入图像相对应的估计深度图。在NYU Depth V2室内场景深度数据集上进行训练、验证和测试,结果表明,该密集卷积网络结构在δ<1.25时准确率达到0.851,均方根误差低至0.482。  相似文献   

12.
针对霾环境中图像降质导致的传统深度估计模型退化问题,提出了一种融合双注意力机制的基于条件生成对抗网络(CGAN)的单幅霾图像深度估计模型。首先,对于模型的生成器的网络结构,提出了融合双注意力机制的DenseUnet结构,其中DenseUnet将密集块作为U-net编码和解码过程中的基本模块,并利用密集连接和跳跃连接在加强信息流动的同时,提取直接传输率图的底层结构特征和高级深度信息。然后,通过双注意力模块自适应地调整空间特征和通道特征的全局依赖关系,同时将最小绝对值损失、感知损失、梯度损失和对抗损失融合为新的结构保持损失函数。最后,将霾图像的直接传输率图作为CGAN的条件,通过生成器和鉴别器的对抗学习估计出霾图像的深度图。在室内数据集NYU Depth v2和室外数据集DIODE上进行训练和测试。实验结果表明,该模型具有更精细的几何结构和更丰富的局部细节。在NYU Depth v2上,与全卷积残差网络相比,对数平均误差(LME)和均方根误差(RMSE)分别降低了7%和10%;在DIODE上,与深度有序回归网络相比,精确度(阈值小于1.25)提高了7.6%。可见,所提模型提高了在霾干扰下深度估计的准确性和泛化能力。  相似文献   

13.
场景的深度估计问题是计算机视觉领域中的经典问题之一,也是3维重建和图像合成等应用中的一个重要环节。基于深度学习的单目深度估计技术高速发展,各种网络结构相继提出。本文对基于深度学习的单目深度估计技术最新进展进行了综述,回顾了基于监督学习和基于无监督学习方法的发展历程。重点关注单目深度估计的优化思路及其在深度学习网络结构中的表现,将监督学习方法分为多尺度特征融合的方法、结合条件随机场(conditional random field,CRF)的方法、基于序数关系的方法、结合多元图像信息的方法和其他方法等5类;将无监督学习方法分为基于立体视觉的方法、基于运动恢复结构(structure from motion,SfM)的方法、结合对抗性网络的方法、基于序数关系的方法和结合不确定性的方法等5类。此外,还介绍了单目深度估计任务中常用的数据集和评价指标,并对目前基于深度学习的单目深度估计技术在精确度、泛化性、应用场景和无监督网络中不确定性研究等方面的现状和面临的挑战进行了讨论,为相关领域的研究人员提供一个比较全面的参考。  相似文献   

14.
单目图像的深度估计可以从相似图像及其对应的深度信息中获得。然而,图像匹 配歧义和估计深度的不均匀性问题制约了这类算法的性能。为此,提出了一种基于卷积神经网 络(CNN)特征提取和加权深度迁移的单目图像深度估计算法。首先提取 CNN 特征计算输入图像 在数据集中的近邻图像;然后获得各候选近邻图像和输入图像间的像素级稠密空间形变函数; 再将形变函数迁移至候选深度图像集,同时引入基于 SIFT 的迁移权重 SSW,并通过对加权迁 移后的候选深度图进行优化获得最终的深度信息。实验结果表明,该方法显著降低了估计深度 图的平均误差,改善了深度估计的质量。  相似文献   

15.
在室内单目视觉导航任务中, 场景的深度信息十分重要. 但单目深度估计是一个不适定问题, 精度较低. 目前, 2D激光雷达在室内导航任务中应用广泛, 且价格低廉. 因此, 本文提出一种融合2D激光雷达的室内单目深度估计算法来提高深度估计精度. 本文在编解码结构上增加了2D激光雷达的特征提取, 通过跳跃连接增加单目深度估计结果的细节信息, 并提出一种运用通道注意力机制融合2D激光雷达特征和RGB图像特征的方法. 本文在公开数据集NYUDv2上对算法进行验证, 并针对本文算法的应用场景, 制作了带有2D激光雷达数据的深度数据集. 实验表明, 本文提出的算法在公开数据集和自制数据集中均优于现有的单目深度估计.  相似文献   

16.
针对传统的光场深度估计算法采用单一的深度线索进行深度估计,导致估计结果精度较低的问题,,提出了一种融合视差和散焦量两种深度线索的光场深度估计的方法。该方法首先进行深度线索的构建,将输入的光场图片转化为EPI Volume和Refocus Volume结构,通过卷积神经网络将EPI特征和散焦特征转化为深度信息,为了克服训练数据不足,采用色彩变换、缩放和随机灰度化等方式进行数据扩容。最终在HCI 4D光场标准数据集上的对比测试结果表明,该方法在均方误差和坏像素率上优于传统算法,且在执行时间上也具有很大优势。  相似文献   

17.
目的 现有的去雨方法存在去雨不彻底和去雨后图像结构信息丢失等问题。针对这些问题, 提出多尺度渐进式残差网络(multi scale progressive residual network, MSPRNet)的单幅图像去雨方法。方法 提出的多尺度渐进式残差网络通过3个不同感受野的子网络进行逐步去雨。将有雨图像通过具有较大感受野的初步去雨子网络去除图像中的大尺度雨痕。通过残留雨痕去除子网络进一步去除残留的雨痕。将中间去雨结果输入图像恢复子网络, 通过这种渐进式网络逐步恢复去雨过程中损失的图像结构信息。为了充分利用残差网络的残差分支上包含的重要信息, 提出了一种改进残差网络模块, 并在每个子网络中引入注意力机制来指导改进残差网络模块去雨。结果 在5个数据集上与最新的8种方法进行对比实验,相较于其他方法中性能第1的模型, 本文算法在5个数据集上分别获得了0.018、0.028、0.012、0.007和0.07的结构相似度(structural similarity, SSIM)增益。同时在Rain100L数据集上进行了消融实验,实验结果表明,每个子网络的缺失都会造成去雨性能的下降, 提出的多尺度渐进式网络算法能够有效去除各种雨痕。结论 提出的算法能够获得最高的客观评价指标值和最优的视觉效果。在有效解决雨痕重叠问题的同时能够更好地保持图像的细节信息。  相似文献   

18.
目的 将低分辨率(low-resolution,LR)图像映射到高分辨率(high-resolution,HR)图像是典型的不适定恢复问题,即输出的HR图像和输入的LR图像之间的映射是多对一的,这意味着仅通过增加网络深度来确定HR图像与LR图像之间的特定映射关系是非常困难的。针对该问题,本文提出一种基于多监督光滑化损失函数的图像超分辨率方法。方法 该方法主体由LR图像上采样通道和HR图像下采样通道两部分组成。各通道分为两个阶段,每个阶段均包括浅层特征提取模块、基于迭代采样错误反馈机制的采样模块、全局特征融合模块和图像重建模块。将LR图像上采样通道第1阶段结果与HR图像下采样通道第1阶段结果对比,然后将HR原图像和HR图像下采样通道第2阶段结果作为约束构成多监督,使映射函数空间尽可能精确,并将多监督损失函数光滑化保证梯度在全局范围内传递。结果 在基准测试集Set5、Set14、BSD100(Berkeley segmentation dataset)、Urban100(urban scenes dataset)、Manga109(109 manga volumes dataset)数据集上进行测试,并与Bicubic、SRCNN (super-resolution convolutional neural network)、FSRCNN (fast super-resolution convolutional neural network)、LapSRN (Laplacian pyramid super-resolution network)、VDSR (very deep super-resolution convolutional networks)、DBPN (deep back-projection networks for super-resolution)和DRN (dual regression networks)等方法的实验结果进行对比。当放大因子为4时,本文算法的峰值信噪比分别为32.29 dB、28.85 dB、27.61 dB、26.16 dB和30.87 dB;在重建图像的可视化分析方面,本文算法相较于对比算法具有更加丰富的纹理和清晰的轮廓。结论 实验结果表明,基于多监督光滑化损失函数方法的图像重建结果与其他超分辨率主流算法相比,在重建图像质量和高频细节处理方面均有所提高。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号