共查询到17条相似文献,搜索用时 89 毫秒
1.
深度估计是一种从单张或者多张图像预测场景深度信息的技术,是计算机视觉领域非常热门的研究方向,在三维重建、场景理解、环境感知等任务中起到了关键作用.当前深度估计技术可以分为多目深度估计和单目深度估计.因为单目摄像头具有成本低、设备较普及、图像获取方便等优点,与多目深度估计技术相比,从单目图像估计深度信息是当前更为热门和更具挑战的技术.近年来,随着深度学习的迅速发展,基于深度学习的单目深度估计方法被广泛研究.本文对基于深度估计的单目深度估计方法进行综述,首先给出单目深度估计问题的定义、介绍常用于训练的数据集与模型评价指标,然后根据不同的训练方式对国内外相关技术进行分析总结,将现有方法分为基于监督学习、无监督学习和半监督学习三大类,对每种类型方法的产生思路、优缺点进行详细分析,最后梳理、总结该技术的发展趋势与关键技术. 相似文献
2.
单幅图像深度估计是计算机视觉中的经典问题,对场景的3维重建、增强现实中的遮挡及光照处理具有重要意义。本文回顾了单幅图像深度估计技术的相关工作,介绍了单幅图像深度估计常用的数据集及模型方法。根据场景类型的不同,数据集可分为室内数据集、室外数据集与虚拟场景数据集。按照数学模型的不同,单目深度估计方法可分为基于传统机器学习的方法与基于深度学习的方法。基于传统机器学习的单目深度估计方法一般使用马尔可夫随机场(MRF)或条件随机场(CRF)对深度关系进行建模,在最大后验概率框架下,通过能量函数最小化求解深度。依据模型是否包含参数,该方法又可进一步分为参数学习方法与非参数学习方法,前者假定模型包含未知参数,训练过程即是对未知参数进行求解;后者使用现有的数据集进行相似性检索推测深度,不需要通过学习来获得参数。对于基于深度学习的单目深度估计方法本文详细阐述了国内外研究现状及优缺点,同时依据不同的分类标准,自底向上逐层级将其归类。第1层级为仅预测深度的单任务方法与同时预测深度及语义等信息的多任务方法。图片的深度和语义等信息关联密切,因此有部分工作研究多任务的联合预测方法。第2层级为绝对深度预测方法与相对深度关系预测方法。绝对深度是指场景中的物体到摄像机的实际距离,而相对深度关注图片中物体的相对远近关系。给定任意图片,人的视觉更擅于判断场景中物体的相对远近关系。第3层级包含有监督回归方法、有监督分类方法及无监督方法。对于单张图片深度估计任务,大部分工作都关注绝对深度的预测,而早期的大多数方法采用有监督回归模型,即模型训练数据带有标签,且对连续的深度值进行回归拟合。考虑到场景由远及近的特性,也有用分类的思想解决深度估计问题的方法。有监督学习方法要求每幅RGB图像都有其对应的深度标签,而深度标签的采集通常需要深度相机或激光雷达,前者范围受限,后者成本昂贵。而且采集的原始深度标签通常是一些稀疏的点,不能与原图很好地匹配。因此不用深度标签的无监督估计方法是研究趋势,其基本思路是利用左右视图,结合对极几何与自动编码机的思想求解深度。 相似文献
3.
目前, 大多数的增强现实和自动驾驶应用不仅会使用到深度网络估计的深度信息, 还会使用到位姿网络估计的位姿信息. 将位姿网络和深度网络同时集成到嵌入式设备上, 会极大地消耗内存. 为解决这一问题, 提出一种深度网络和位姿网络共用特征提取器的方法, 使模型保持在一个轻量级的尺寸. 此外, 通过带有线性结构的深度可分离卷积轻量化深度网络, 使网络在不丢失过多细节信息前提下还可获得更少的参数量. 最后, 通过在KITTI数据集上的实验表明, 与同类算法相比, 该位姿网络和深度网络参数量只有的 35.33 MB. 同时, 恢复深度图的平均绝对误差也保持在0.129. 相似文献
4.
场景的深度估计问题是计算机视觉领域中的经典问题之一,也是3维重建和图像合成等应用中的一个重要环节。基于深度学习的单目深度估计技术高速发展,各种网络结构相继提出。本文对基于深度学习的单目深度估计技术最新进展进行了综述,回顾了基于监督学习和基于无监督学习方法的发展历程。重点关注单目深度估计的优化思路及其在深度学习网络结构中的表现,将监督学习方法分为多尺度特征融合的方法、结合条件随机场(conditional random field,CRF)的方法、基于序数关系的方法、结合多元图像信息的方法和其他方法等5类;将无监督学习方法分为基于立体视觉的方法、基于运动恢复结构(structure from motion,SfM)的方法、结合对抗性网络的方法、基于序数关系的方法和结合不确定性的方法等5类。此外,还介绍了单目深度估计任务中常用的数据集和评价指标,并对目前基于深度学习的单目深度估计技术在精确度、泛化性、应用场景和无监督网络中不确定性研究等方面的现状和面临的挑战进行了讨论,为相关领域的研究人员提供一个比较全面的参考。 相似文献
5.
空洞空间金字塔池化(ASPP)在深度学习各种任务中均有应用,传统ASPP模块只考虑了提升卷积感受视野,但ASPP中的每次空洞卷积选取的像素点分散,会丢失大量像素点间的信息,而深度估计属于密集预测任务。针对ASPP模块这一弊端提出了一种动态密集的DSPP模块。该模块用一种动态卷积代替空洞卷积,结合ASPP的思想,采用不同大小的卷积尺寸,并结合通道注意力充分利用每一层的特征,解决了ASPP丢失信息的问题,与ASPP相比在大大减小模块参数量的前提下,提升了整体模型的准确率。在NYU Depth v2数据集上与主流算法相比深度图在均方根误差(RMSE)上降低了12.5%,到0.407,并且准确率(δ<1.25)提高了3.4%,达到0.875,验证了算法的有效性。 相似文献
6.
提出了一种基于生成式对抗网络(GAN)和自注意力机制(self-attention mechanism)的单目视觉里程计方法,命名为SAGANVO(SAGAN visual odometry).该方法将生成式对抗网络学习框架应用于深度估计和视觉里程计任务中,通过GAN生成逼真的目标帧来准确求解出场景的深度图和6自由度位姿.与此同时,为了提高深度网络对场景细节、边缘轮廓的学习能力,将自注意力机制结合到网络模型中.最后,在公开数据集KITTI上展现了所提出的模型和方法的高质量结果,并与现有方法进行了对比,证明了SAGANVO在深度估计和位姿估计中的性能优于现有的主流方法. 相似文献
7.
在室内单目视觉导航任务中,场景的深度信息十分重要.但单目深度估计是一个不适定问题,精度较低.目前, 2D激光雷达在室内导航任务中应用广泛,且价格低廉.因此,本文提出一种融合2D激光雷达的室内单目深度估计算法来提高深度估计精度.本文在编解码结构上增加了2D激光雷达的特征提取,通过跳跃连接增加单目深度估计结果的细节信息,并提出一种运用通道注意力机制融合2D激光雷达特征和RGB图像特征的方法.本文在公开数据集NYUDv2上对算法进行验证,并针对本文算法的应用场景,制作了带有2D激光雷达数据的深度数据集.实验表明,本文提出的算法在公开数据集和自制数据集中均优于现有的单目深度估计. 相似文献
8.
针对现有自监督学习的单目图像深度估计在分辨率较大情况下存在边缘模糊、物体轮廓不清晰等问题,本文提出一种结合视觉Transformer的多尺度通道注意力融合单目图像深度估计网络.首先,设计编码器-解码器模型,将视觉Transformer结构作为编码器在多个尺度上提取特征.其次,设计残差通道注意力融合的解码器,优化提取到的多尺度特征并实现上下级特征融合以提高上下文信息的利用率.最后,在多个尺度下对单目图像进行深度估计.本文提出的算法在KITTI数据集上进行实验.实验结果表明,所提出算法的深度图像质量和物体轮廓信息均高于现有算法,其绝对相对误差、平方相对误差和均方根误差分别达到了0.119、0.857和4.571,在不同阈值下的准确度达到了0.959、0.995和0.999,验证了所提算法的正确性和有效性. 相似文献
9.
使用深度学习方法进行单目深度估计时,由于使用多级下采样会出现重建结果细节信息缺失、边缘轮廓模糊等问题.为此,提出一种基于高分辨率网络的自监督单目深度估计方法.首先,通过并行连接使得特征图在编码过程中始终保持高分辨率表示,以充分地保留细节信息;其次,为了提高编码器的学习能力,在编码部分引入注意力模块,对图像特征进行筛选和提炼;最后,针对深度估计的多义性问题,利用非相邻帧图像之间的一致性,设计了一种有效的损失函数,并使用可靠性掩膜来消除动点和遮挡点的干扰.在TensorFlow框架下采用KITTI和Cityscapes数据集进行实验,实验结果表明,与已有深度估计方法相比,该方法不仅能够保留预测深度的边缘信息,而且能够提高预测深度的准确性,可达到0.119的平均相对误差. 相似文献
10.
单目图像的深度估计可以从相似图像及其对应的深度信息中获得。然而,图像匹 配歧义和估计深度的不均匀性问题制约了这类算法的性能。为此,提出了一种基于卷积神经网 络(CNN)特征提取和加权深度迁移的单目图像深度估计算法。首先提取 CNN 特征计算输入图像 在数据集中的近邻图像;然后获得各候选近邻图像和输入图像间的像素级稠密空间形变函数; 再将形变函数迁移至候选深度图像集,同时引入基于 SIFT 的迁移权重 SSW,并通过对加权迁 移后的候选深度图进行优化获得最终的深度信息。实验结果表明,该方法显著降低了估计深度 图的平均误差,改善了深度估计的质量。 相似文献
11.
目的 无监督单目图像深度估计是3维重建领域的一个重要方向,在视觉导航和障碍物检测等领域具有广泛的应用价值。针对目前主流方法存在的局部可微性问题,提出了一种基于局部平面参数预测的方法。方法将深度估计问题转化为局部平面参数估计问题,使用局部平面参数预测模块代替多尺度估计中上采样及生成深度图的过程。在每个尺度的深度图预测中根据局部平面参数恢复至标准尺度,然后依据针孔相机模型得到标准尺度深度图,以避免使用双线性插值带来的局部可微性,从而有效规避陷入局部极小值,配合在网络跳层连接中引入的串联注意力机制,提升网络的特征提取能力。结果 在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)自动驾驶数据集上进行了对比实验以及消融实验,与现存无监督方法和部分有监督方法进行对比,相比于最优数据,误差性指标降低了10% 20%,准确性指标提升了2%左右,同时,得到的稠密深度估计图具有清晰的边缘轮廓以及对反射区域更优的鲁棒性。结论 本文提出的基于局部平面参数预测的深度估计方法,充分利用卷积特征信息,避免了训练过程中陷入局部极小值,同时对网络添加几何约束,使测试指标及视觉效果更加优秀。 相似文献
12.
13.
目的 深度信息的获取是3维重建、虚拟现实等应用的关键技术,基于单目视觉的深度信息获取是非接触式3维测量技术中成本最低、也是技术难度最大的手段。传统的单目方法多基于线性透视、纹理梯度、运动视差、聚焦散焦等深度线索来对深度信息进行求取,计算量大,对相机精度要求高,应用场景受限,本文基于固定光强的点光源在场景中的移动所带来的物体表面亮度的变化,提出一种简单快捷的单目深度提取方法。方法 首先根据体表面反射模型,得到光源照射下的物体表面的辐亮度,然后结合光度立体学推导物体表面辐亮度与摄像机图像亮度之间的关系,在得到此关系式后,设计实验,依据点光源移动所带来的图像亮度的变化对深度信息进行求解。结果 该算法在简单场景和一些日常场景下均取得了较好的恢复效果,深度估计值与实际深度值之间的误差小于10%。结论 本文方法通过光源移动带来的图像亮度变化估计深度信息,避免了复杂的相机标定过程,计算复杂度小,是一种全新的场景深度信息获取方法。 相似文献
14.
针对无人机避障问题,提出一种基于深度学习的四旋翼无人机单目视觉避障方法。首先通过目标检测框选出目标在图像中的位置,并通过计算目标选框上下边距的长度,以此来估量出障碍物到无人机之间的距离;然后通过协同计算机判断是否执行避障动作;最后使用基于Pixhawk搭建的飞行实验平台进行实验。实验结果表明,该方法可用于无人机低速飞行条件下避障。该方法所用到的传感器只有一块单目摄像头,而且相对于传统的主动式传感器避障方法,所占用无人机的体积大幅减小。该方法鲁棒性较好,能够准确识别不同姿态的人,实现对人避障。 相似文献
15.
16.
Shuichi Takahashi Takanori Ishikawa Yasuhide Hyodo Isao Ohashi Yoshihide Shimpuku Kazuya Matsubara Kazumichi Matsumiya Satoshi Shioiri 《Journal of the Society for Information Display》2011,19(1):29-36
Abstract— This paper considers the architecture and the effectiveness of new algorithms that control the subjective depth on 3‐D displays by modulating the contrast of stereoscopic pictures on the basis of a quantified monocular depth cue. First, a psychophysical experiment to quantify the relationship between contrast and subjective depth was conducted. This experimental result shows that the higher the contrast, the nearer the object will be perceived, corresponding to the qualitative relationship. Second, this result was applied to image‐processing algorithms that expand or contract the subjective depth of stereoscopic pictures. Subjective assessments to verify the effectiveness of the algorithms were also conducted. The results suggest that the algorithms will allow viewers to experience a highly realistic sensation. 相似文献
17.
目的 双目视觉是目标距离估计问题的一个很好的解决方案。现有的双目目标距离估计方法存在估计精度较低或数据准备较繁琐的问题,为此需要一个可以兼顾精度和数据准备便利性的双目目标距离估计算法。方法 提出一个基于R-CNN(region convolutional neural network)结构的网络,该网络可以实现同时进行目标检测与目标距离估计。双目图像输入网络后,通过主干网络提取特征,通过双目候选框提取网络以同时得到左右图像中相同目标的包围框,将成对的目标框内的局部特征输入目标视差估计分支以估计目标的距离。为了同时得到左右图像中相同目标的包围框,使用双目候选框提取网络代替原有的候选框提取网络,并提出了双目包围框分支以同时进行双目包围框的回归;为了提升视差估计的精度,借鉴双目视差图估计网络的结构,提出了一个基于组相关和3维卷积的视差估计分支。结果 在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute)数据集上进行验证实验,与同类算法比较,本文算法平均相对误差值约为3.2%,远小于基于双目视差图估计算法(11.3%),与基于3维目标检测的算法接近(约为3.9%)。另外,提出的视差估计分支改进对精度有明显的提升效果,平均相对误差值从5.1%下降到3.2%。通过在另外采集并标注的行人监控数据集上进行类似实验,实验结果平均相对误差值约为4.6%,表明本文方法可以有效应用于监控场景。结论 提出的双目目标距离估计网络结合了目标检测与双目视差估计的优势,具有较高的精度。该网络可以有效运用于车载相机及监控场景,并有希望运用于其他安装有双目相机的场景。 相似文献