共查询到20条相似文献,搜索用时 15 毫秒
1.
单目深度估计是从单幅图像中获取场景深度信息的重要技术,在智能汽车和机器人定位等领域应用广泛,具有重要的研究价值。随着深度学习技术的发展,涌现出许多基于深度学习的单目深度估计研究,单目深度估计性能也取得了很大进展。本文按照单目深度估计模型采用的训练数据的类型,从3个方面综述了近年来基于深度学习的单目深度估计方法:基于单图像训练的模型、基于多图像训练的模型和基于辅助信息优化训练的单目深度估计模型。同时,本文在综述了单目深度估计研究常用数据集和性能指标基础上,对经典的单目深度估计模型进行了性能比较分析。以单幅图像作为训练数据的模型具有网络结构简单的特点,但泛化性能较差。采用多图像训练的深度估计网络有更强的泛化性,但网络的参数量大、网络收敛速度慢、训练耗时长。引入辅助信息的深度估计网络的深度估计精度得到了进一步提升,但辅助信息的引入会造成网络结构复杂、收敛速度慢等问题。单目深度估计研究还存在许多的难题和挑战。利用多图像输入中包含的潜在信息和特定领域的约束信息,来提高单目深度估计的性能,逐渐成为了单目深度估计研究的趋势。 相似文献
2.
场景的深度估计问题是计算机视觉领域中的经典问题之一,也是3维重建和图像合成等应用中的一个重要环节。基于深度学习的单目深度估计技术高速发展,各种网络结构相继提出。本文对基于深度学习的单目深度估计技术最新进展进行了综述,回顾了基于监督学习和基于无监督学习方法的发展历程。重点关注单目深度估计的优化思路及其在深度学习网络结构中的表现,将监督学习方法分为多尺度特征融合的方法、结合条件随机场(conditional random field,CRF)的方法、基于序数关系的方法、结合多元图像信息的方法和其他方法等5类;将无监督学习方法分为基于立体视觉的方法、基于运动恢复结构(structure from motion,SfM)的方法、结合对抗性网络的方法、基于序数关系的方法和结合不确定性的方法等5类。此外,还介绍了单目深度估计任务中常用的数据集和评价指标,并对目前基于深度学习的单目深度估计技术在精确度、泛化性、应用场景和无监督网络中不确定性研究等方面的现状和面临的挑战进行了讨论,为相关领域的研究人员提供一个比较全面的参考。 相似文献
3.
目前, 大多数的增强现实和自动驾驶应用不仅会使用到深度网络估计的深度信息, 还会使用到位姿网络估计的位姿信息. 将位姿网络和深度网络同时集成到嵌入式设备上, 会极大地消耗内存. 为解决这一问题, 提出一种深度网络和位姿网络共用特征提取器的方法, 使模型保持在一个轻量级的尺寸. 此外, 通过带有线性结构的深度可分离卷积轻量化深度网络, 使网络在不丢失过多细节信息前提下还可获得更少的参数量. 最后, 通过在KITTI数据集上的实验表明, 与同类算法相比, 该位姿网络和深度网络参数量只有的 35.33 MB. 同时, 恢复深度图的平均绝对误差也保持在0.129. 相似文献
4.
空洞空间金字塔池化(ASPP)在深度学习各种任务中均有应用,传统ASPP模块只考虑了提升卷积感受视野,但ASPP中的每次空洞卷积选取的像素点分散,会丢失大量像素点间的信息,而深度估计属于密集预测任务。针对ASPP模块这一弊端提出了一种动态密集的DSPP模块。该模块用一种动态卷积代替空洞卷积,结合ASPP的思想,采用不同大小的卷积尺寸,并结合通道注意力充分利用每一层的特征,解决了ASPP丢失信息的问题,与ASPP相比在大大减小模块参数量的前提下,提升了整体模型的准确率。在NYU Depth v2数据集上与主流算法相比深度图在均方根误差(RMSE)上降低了12.5%,到0.407,并且准确率(δ<1.25)提高了3.4%,达到0.875,验证了算法的有效性。 相似文献
5.
使用深度学习方法进行单目深度估计时,由于使用多级下采样会出现重建结果细节信息缺失、边缘轮廓模糊等问题.为此,提出一种基于高分辨率网络的自监督单目深度估计方法.首先,通过并行连接使得特征图在编码过程中始终保持高分辨率表示,以充分地保留细节信息;其次,为了提高编码器的学习能力,在编码部分引入注意力模块,对图像特征进行筛选和提炼;最后,针对深度估计的多义性问题,利用非相邻帧图像之间的一致性,设计了一种有效的损失函数,并使用可靠性掩膜来消除动点和遮挡点的干扰.在TensorFlow框架下采用KITTI和Cityscapes数据集进行实验,实验结果表明,与已有深度估计方法相比,该方法不仅能够保留预测深度的边缘信息,而且能够提高预测深度的准确性,可达到0.119的平均相对误差. 相似文献
6.
针对无人机对目标的识别定位与跟踪,本文提出了一种基于深度学习的多旋翼无人机单目视觉目标识别跟踪方法,解决了传统的基于双目摄像机成本过高以及在复杂环境下识别准确率较低的问题。该方法基于深度学习卷积神经网络的目标检测算法,使用该算法对目标进行模型训练,将训练好的模型加载到搭载ROS的机载电脑。机载电脑外接单目摄像机,单目摄像头检测目标后,自动检测出目标在图像中的位置,通过采用一种基于坐标求差的优化算法进行目标位置准确获取,然后将目标位置信息转化为控制无人机飞行的期望速度和高度发送给飞控板,飞控板接收到机载电脑发送的跟踪指令,实现对目标物体的跟踪。试验结果验证了该方法可以很好的进行目标识别并实现目标追踪 相似文献
7.
针对无人机避障问题,提出一种基于深度学习的四旋翼无人机单目视觉避障方法。首先通过目标检测框选出目标在图像中的位置,并通过计算目标选框上下边距的长度,以此来估量出障碍物到无人机之间的距离;然后通过协同计算机判断是否执行避障动作;最后使用基于Pixhawk搭建的飞行实验平台进行实验。实验结果表明,该方法可用于无人机低速飞行条件下避障。该方法所用到的传感器只有一块单目摄像头,而且相对于传统的主动式传感器避障方法,所占用无人机的体积大幅减小。该方法鲁棒性较好,能够准确识别不同姿态的人,实现对人避障。 相似文献
8.
刚体位姿估计旨在获取刚体在相机坐标系下的3D平移信息和3D旋转信息,在自动驾驶、机器人、增强现实等快速发展的领域起着重要作用。现对2017-2021年间的基于深度学习的刚体位姿估计方向具有代表性的研究进行汇总与分析。将刚体位姿估计的方法分为基于坐标、基于关键点和基于模板的方法。将刚体位姿估计任务划分为图像预处理、空间映射或特征匹配、位姿恢复和位姿优化4项子任务,详细介绍每一类方法的子任务实现及其优势和存在的问题。分析刚体位姿估计任务面临的挑战,总结现有解决方案及其优缺点。介绍刚体位姿估计常用的数据集和性能评价指标,并对比分析现有方法在常用数据集上的表现。最后从位姿跟踪、类别级位姿估计等多个角度对未来研究方向进行了展望。 相似文献
9.
单幅图像深度估计是计算机视觉中的经典问题,对场景的3维重建、增强现实中的遮挡及光照处理具有重要意义。本文回顾了单幅图像深度估计技术的相关工作,介绍了单幅图像深度估计常用的数据集及模型方法。根据场景类型的不同,数据集可分为室内数据集、室外数据集与虚拟场景数据集。按照数学模型的不同,单目深度估计方法可分为基于传统机器学习的方法与基于深度学习的方法。基于传统机器学习的单目深度估计方法一般使用马尔可夫随机场(MRF)或条件随机场(CRF)对深度关系进行建模,在最大后验概率框架下,通过能量函数最小化求解深度。依据模型是否包含参数,该方法又可进一步分为参数学习方法与非参数学习方法,前者假定模型包含未知参数,训练过程即是对未知参数进行求解;后者使用现有的数据集进行相似性检索推测深度,不需要通过学习来获得参数。对于基于深度学习的单目深度估计方法本文详细阐述了国内外研究现状及优缺点,同时依据不同的分类标准,自底向上逐层级将其归类。第1层级为仅预测深度的单任务方法与同时预测深度及语义等信息的多任务方法。图片的深度和语义等信息关联密切,因此有部分工作研究多任务的联合预测方法。第2层级为绝对深度预测方法与相对深度关系预测方法。绝对深度是指场景中的物体到摄像机的实际距离,而相对深度关注图片中物体的相对远近关系。给定任意图片,人的视觉更擅于判断场景中物体的相对远近关系。第3层级包含有监督回归方法、有监督分类方法及无监督方法。对于单张图片深度估计任务,大部分工作都关注绝对深度的预测,而早期的大多数方法采用有监督回归模型,即模型训练数据带有标签,且对连续的深度值进行回归拟合。考虑到场景由远及近的特性,也有用分类的思想解决深度估计问题的方法。有监督学习方法要求每幅RGB图像都有其对应的深度标签,而深度标签的采集通常需要深度相机或激光雷达,前者范围受限,后者成本昂贵。而且采集的原始深度标签通常是一些稀疏的点,不能与原图很好地匹配。因此不用深度标签的无监督估计方法是研究趋势,其基本思路是利用左右视图,结合对极几何与自动编码机的思想求解深度。 相似文献
10.
提出了一种基于生成式对抗网络(GAN)和自注意力机制(self-attention mechanism)的单目视觉里程计方法,命名为SAGANVO(SAGAN visual odometry).该方法将生成式对抗网络学习框架应用于深度估计和视觉里程计任务中,通过GAN生成逼真的目标帧来准确求解出场景的深度图和6自由度位姿.与此同时,为了提高深度网络对场景细节、边缘轮廓的学习能力,将自注意力机制结合到网络模型中.最后,在公开数据集KITTI上展现了所提出的模型和方法的高质量结果,并与现有方法进行了对比,证明了SAGANVO在深度估计和位姿估计中的性能优于现有的主流方法. 相似文献
11.
利用单目深度估计辅助飞行器超低空飞行的制导与控制是一个非常重要的发展方向。基于此在自监督学习框架下研究了一种基于单目图像的超低空景深估计方法:以立体图像对为训练集,采用左右一致性原则,有效提高网络准确率,并通过多尺度统一,改善了深度图中的空洞问题。在KITTI数据集和自制的超低空样本集上的实验结果表明论文所提方法能有效应用于超低空场景下的深度估计。 相似文献
12.
软体机械臂在非结构化环境中执行物体抓取任务时,具有柔顺性和安全性的优势。但由于传统的立体视觉系统难以安装在软体机械臂上,软体机械臂获取目标物体的三维位置仍存在挑战。首先,建立了描述软体机械臂运动状态和目标物体位置的协作坐标系模型。随后,提出了一种改进运动恢复结构的单目深度估计方法:(1)针对深度估计的实时性要求,提出采用主成分分析-尺度不变特征变换(principal component analysis-scale invariant feature transform,PCA-SIFT)方法对特征描述符降维;(2)将机械臂末端的移动距离作为约束恢复深度估计的真实尺度。最后,通过实验验证了所提出的协作坐标系和深度估计方法的有效性。实验结果表明,所提深度估计方法在多种光照和遮挡环境中,特征匹配时间缩短了16.02%,平均误差控制在5 mm以内。 相似文献
13.
相机位姿估计是指在已知环境下精确地估计相机在世界坐标系中六自由度位姿的技术,该技术是机器人技术和自动驾驶中的关键技术。随着深度学习的飞速发展,使用深度学习来优化相机位姿估计算法已经成为了当前的研究热点之一。为了掌握目前相机位姿估计算法的研究现状与趋势,对基于深度学习的相机位姿估计的主流算法进行了综述。简单介绍了传统的基于特征点的相机位姿估计方法。重点介绍了基于深度学习的方法:根据核心算法的不同,从端到端的相机位姿估计、场景坐标回归、基于检索的相机位姿估计、层级结构、多信息融合和跨场景的相机位姿估计六个方面进行了详细的阐述和分析。对研究现状进行了总结,并基于深入的性能分析指出了相机位姿估计领域面临的挑战,展望了其发展动向。 相似文献
14.
单目图像的深度估计可以从相似图像及其对应的深度信息中获得。然而,图像匹 配歧义和估计深度的不均匀性问题制约了这类算法的性能。为此,提出了一种基于卷积神经网 络(CNN)特征提取和加权深度迁移的单目图像深度估计算法。首先提取 CNN 特征计算输入图像 在数据集中的近邻图像;然后获得各候选近邻图像和输入图像间的像素级稠密空间形变函数; 再将形变函数迁移至候选深度图像集,同时引入基于 SIFT 的迁移权重 SSW,并通过对加权迁 移后的候选深度图进行优化获得最终的深度信息。实验结果表明,该方法显著降低了估计深度 图的平均误差,改善了深度估计的质量。 相似文献
15.
为解决目前单目图像深度估计方法存在的精度低、网络结构复杂等问题,提出一种密集卷积网络结构,该网络采用端到端的编码器和解码器结构。编码器引入密集卷积网络DenseNet,将前面每一层的输出作为本层的输入,在加强特征重用和前向传播的同时减少参数量和网络计算量,从而避免梯度消失问题发生。解码器结构采用带有空洞卷积的上投影模块和双线性插值模块,以更好地表达由编码器所提取的图像特征,最终得到与输入图像相对应的估计深度图。在NYU Depth V2室内场景深度数据集上进行训练、验证和测试,结果表明,该密集卷积网络结构在δ<1.25时准确率达到0.851,均方根误差低至0.482。 相似文献
16.
场景识别是一种用计算机实现人的视觉功能的技术,它的研究目标是使计算机能够对图像或视频进行处理,自动识别和理解图像和视频中的场景信息。由于场景识别技术拥有广泛的应用前景,因此得到了许多关注。随着大数据时代的来临和深度学习的发展,使用深度学习方法解决场景识别问题已经成为场景识别领域未来的发展方向。文章首先概述介绍了场景识别技术的主要研究内容和发展情况,之后阐述了在图像场景识别中深度学习方法的应用情况,然后介绍了一些在图像场景识别中深度学习方法应用的具体的典型案例,同时给出了这几种方法具体的对比与分析。最后给出了文章的结论,总结了当前图像场景识别中使用深度学习方法的发展情况,并且对未来的发展方向给出了一些展望和建议。 相似文献
17.
人工智能和自动驾驶的发展如火如荼,人工智能技术在自动驾驶技术中的应用也越来越多、越来越深入,因此本文提出一种基于深度强化学习的单目视觉自动驾驶决策系统,可以让自动驾驶车辆通过相机作为传感器输入,实现端到端的自动驾驶决策,并且通过设置奖励函数和训练使得车辆的学习效率越来越高,可以在车道内保持直线行驶。 相似文献
18.
单目图像深度估计是一个病态问题,究其原因在于单一图像中缺乏深度信息。随着深度学习技术的不断发展,深度神经网络在单目图像深度估计领域取得了一定的突破。现有的深度网络模型采用编码-解码结构,编码器往往采用全卷积的方式来获取特征图像,但提取的特征图像往往不能很好地反映图像原有的信息。因此,通过对图像编码器进行改进,对提取的不同尺度下的特征进行融合,使得特征图像能更好地反映原有的图像信息。并且在训练时,在左右一致性损失的基础上引入Wasserstein距离损失对模型进行约束。实验结果表明,模型在KITTI数据集上具有较好的表现,预测得到的深度图像具有较高的准确性。 相似文献
19.
针对传统方法在单目图像深度估计时精度低、速度慢等问题,提出一种全卷积编码-解码网络模型,该模型将稀疏的深度样本集和RGB图像作为输入,编码层由Resnet和一个卷积层组成,解码层由两个上采样层和一个双线性上采样层组成,上采样层采用上卷积模块和上投影模块交叉使用,有效降低了棋盘效应并保留了预测深度图像的边缘信息.同时,模... 相似文献