首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
深度学习单目深度估计研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
单目深度估计是从单幅图像中获取场景深度信息的重要技术,在智能汽车和机器人定位等领域应用广泛,具有重要的研究价值。随着深度学习技术的发展,涌现出许多基于深度学习的单目深度估计研究,单目深度估计性能也取得了很大进展。本文按照单目深度估计模型采用的训练数据的类型,从3个方面综述了近年来基于深度学习的单目深度估计方法:基于单图像训练的模型、基于多图像训练的模型和基于辅助信息优化训练的单目深度估计模型。同时,本文在综述了单目深度估计研究常用数据集和性能指标基础上,对经典的单目深度估计模型进行了性能比较分析。以单幅图像作为训练数据的模型具有网络结构简单的特点,但泛化性能较差。采用多图像训练的深度估计网络有更强的泛化性,但网络的参数量大、网络收敛速度慢、训练耗时长。引入辅助信息的深度估计网络的深度估计精度得到了进一步提升,但辅助信息的引入会造成网络结构复杂、收敛速度慢等问题。单目深度估计研究还存在许多的难题和挑战。利用多图像输入中包含的潜在信息和特定领域的约束信息,来提高单目深度估计的性能,逐渐成为了单目深度估计研究的趋势。  相似文献   

2.
单幅图像深度估计是计算机视觉中的经典问题,对场景的3维重建、增强现实中的遮挡及光照处理具有重要意义。本文回顾了单幅图像深度估计技术的相关工作,介绍了单幅图像深度估计常用的数据集及模型方法。根据场景类型的不同,数据集可分为室内数据集、室外数据集与虚拟场景数据集。按照数学模型的不同,单目深度估计方法可分为基于传统机器学习的方法与基于深度学习的方法。基于传统机器学习的单目深度估计方法一般使用马尔可夫随机场(MRF)或条件随机场(CRF)对深度关系进行建模,在最大后验概率框架下,通过能量函数最小化求解深度。依据模型是否包含参数,该方法又可进一步分为参数学习方法与非参数学习方法,前者假定模型包含未知参数,训练过程即是对未知参数进行求解;后者使用现有的数据集进行相似性检索推测深度,不需要通过学习来获得参数。对于基于深度学习的单目深度估计方法本文详细阐述了国内外研究现状及优缺点,同时依据不同的分类标准,自底向上逐层级将其归类。第1层级为仅预测深度的单任务方法与同时预测深度及语义等信息的多任务方法。图片的深度和语义等信息关联密切,因此有部分工作研究多任务的联合预测方法。第2层级为绝对深度预测方法与相对深度关系预测方法。绝对深度是指场景中的物体到摄像机的实际距离,而相对深度关注图片中物体的相对远近关系。给定任意图片,人的视觉更擅于判断场景中物体的相对远近关系。第3层级包含有监督回归方法、有监督分类方法及无监督方法。对于单张图片深度估计任务,大部分工作都关注绝对深度的预测,而早期的大多数方法采用有监督回归模型,即模型训练数据带有标签,且对连续的深度值进行回归拟合。考虑到场景由远及近的特性,也有用分类的思想解决深度估计问题的方法。有监督学习方法要求每幅RGB图像都有其对应的深度标签,而深度标签的采集通常需要深度相机或激光雷达,前者范围受限,后者成本昂贵。而且采集的原始深度标签通常是一些稀疏的点,不能与原图很好地匹配。因此不用深度标签的无监督估计方法是研究趋势,其基本思路是利用左右视图,结合对极几何与自动编码机的思想求解深度。  相似文献   

3.
以多视图几何原理为基础,有效结合卷积神经网络进行图像深度估计和匹配筛选,构造无监督单目视觉里程计方法.针对主流深度估计网络易丢失图像浅层特征的问题,构造一种基于改进密集模块的深度估计网络,有效地聚合浅层特征,提升图像深度估计精度.里程计利用深度估计网络精确预测单目图像深度,利用光流网络获得双向光流,通过前后光流一致性原则筛选高质量匹配.利用多视图几何原理和优化方式求解获得初始位姿和计算深度,并通过特定的尺度对齐原则得到全局尺度一致的6自由度位姿.同时,为了提高网络对场景细节和弱纹理区域的学习能力,将基于特征图合成的特征度量损失结合到网络损失函数中.在KITTI Odometry数据集上进行实验验证,不同阈值下的深度估计取得了85.9%、95.8%、97.2%的准确率.在09和10序列上进行里程计评估,绝对轨迹误差在0.007 m.实验结果验证了所提出方法的有效性和准确性,表明其在深度估计和视觉里程计任务上的性能优于现有方法.  相似文献   

4.
叶星余  何元烈  汝少楠 《机器人》2021,43(2):203-213
提出了一种基于生成式对抗网络(GAN)和自注意力机制(self-attention mechanism)的单目视觉里程计方法,命名为SAGANVO(SAGAN visual odometry).该方法将生成式对抗网络学习框架应用于深度估计和视觉里程计任务中,通过GAN生成逼真的目标帧来准确求解出场景的深度图和6自由度位姿.与此同时,为了提高深度网络对场景细节、边缘轮廓的学习能力,将自注意力机制结合到网络模型中.最后,在公开数据集KITTI上展现了所提出的模型和方法的高质量结果,并与现有方法进行了对比,证明了SAGANVO在深度估计和位姿估计中的性能优于现有的主流方法.  相似文献   

5.
从单目视觉中恢复深度信息是计算机视觉领域的经典问题,结合传统算法的深度学习方法是近年来的研究热点,但在神经网络的算法融合、参照物标定和应用场景上还有限制。提出了一种双路融合深度估计神经网络结构,分别基于深度与深度梯度的语义信息进行网络训练,对特征融合后再次训练得到最终的细节特征,并通过单次标定的方法解决真实参照物标定工作量大的问题。该网络结构能根据单张RGB图片推测出富有细节的深度信息,网络模型基于KITTI的深度图数据集训练,实验包括KITTI测试集和部分实际场景图集,结果表明该方法在深度信息细节的重建上优于对比深度估计方案,在大视场场景下的鲁棒性优良。  相似文献   

6.
陈宗海  洪洋  王纪凯  葛振华 《机器人》2019,41(2):147-155
提出了一种基于卷积长短期记忆(LSTM)网络和卷积神经网络(CNN)的单目视觉里程计方法,命名为LSTMVO(LSTM visual odometry).LSTMVO采用无监督的端到端深度学习框架,对单目相机的6-DoF位姿以及场景深度进行同步估计.整个网络框架包含位姿估计网络以及深度估计网络,其中位姿估计网络是以端到端方式实现单目位姿估计的深度循环卷积神经网络(RCNN),由基于卷积神经网络的特征提取和基于循环神经网络(RNN)的时序建模组成,深度估计网络主要基于编码器和解码器架构生成稠密的深度图.同时本文还提出了一种新的损失函数进行网络训练,该损失函数由图像序列之间的时序损失、深度平滑度损失和前后一致性损失组成.基于KITTI数据集的实验结果表明,通过在原始单目RGB图像上进行训练,LSTMVO在位姿估计精度以及深度估计精度方面优于现有的主流单目视觉里程计方法,验证了本文提出的深度学习框架的有效性.  相似文献   

7.
针对现有自监督学习的单目图像深度估计在分辨率较大情况下存在边缘模糊、物体轮廓不清晰等问题,本文提出一种结合视觉Transformer的多尺度通道注意力融合单目图像深度估计网络.首先,设计编码器-解码器模型,将视觉Transformer结构作为编码器在多个尺度上提取特征.其次,设计残差通道注意力融合的解码器,优化提取到的多尺度特征并实现上下级特征融合以提高上下文信息的利用率.最后,在多个尺度下对单目图像进行深度估计.本文提出的算法在KITTI数据集上进行实验.实验结果表明,所提出算法的深度图像质量和物体轮廓信息均高于现有算法,其绝对相对误差、平方相对误差和均方根误差分别达到了0.119、0.857和4.571,在不同阈值下的准确度达到了0.959、0.995和0.999,验证了所提算法的正确性和有效性.  相似文献   

8.
针对计算机视觉理解单目图像立体结构的问题,进行了单目图像深度估计算法的研究。提出了一种基于监督学习方法的室外单目图像深度估计算法,其采用语义标注信息指导深度估计过程,融合绝对深度特征、相对深度特征以及位置特征作为深度特征向量,采用LLOM学习深度特征向量与深度值之间的关系。实验结果显示,该算法对路面、草地以及建筑物类等深度渐进变化的图像块,可获得较满意的深度估计结果。本算法为单目图像深度估计开辟了一个全新的有效途径。  相似文献   

9.
基于深度学习的视觉里程计方法(deep visual odometry,DVO)通过神经网络直接估计单目图像的深度和相邻图像之间的相机运动,在保证精度的同时大大提高了运行速度。但这是基于灰度不变假设,作为一个很强的假设,灰度不变假设在现实场景中往往难以满足。为此,提出一种基于图像对齐(image alignment,IA)的直接视觉里程计方法AUDVO(aligned U-CNN deep VO),通过不确定性估计网络(uncertainty CNN,U-CNN)引入正则项进行约束,使得估计的结果更具鲁棒性。为了处理大面积纹理缺失区域上因估计不准确带来的空洞,在设计深度估计模块时通过嵌入超分辨率网络进行上采样。在公开的KITTI数据集上的实验证明了AUDVO在深度和相机位姿估计上的有效性。  相似文献   

10.
目前大量被提出的关于单目视觉深度估计网络研究中其网络结构庞大臃肿,在实际部署中会存在占用大、延迟高的问题.针对以上问题,本文提出了基于可学习步长的量化策略的轻量化深度估计网络.该网络采取特征金字塔(FPN)的网络结构对图片不同尺度的特征信息进行提取.并结合内存优化,对网络的特征提取部分采用深度可分离卷积,使得网络相对于...  相似文献   

11.
图像超分辨率重建是用于提高图像质量的一项重要技术, 得益于深度学习在计算机视觉领域的成功应用和快速发展, 单图像超分辨率重建的效果得到了显著提升. 因此, 本文针对基于深度学习的单图像超分辨率重建方法展开深入研究, 首先综合介绍了用于该领域的基准数据集、性能评价指标、损失函数等相关知识, 然后对有监督学习和无监督学习下单图像超分辨率重建技术的最新算法进行分类讨论, 并且比较分析了不同模型之间的异同点与优缺点, 最后对该领域面临的问题和未来的发展方向进行了总结与展望.  相似文献   

12.
3-D Depth Reconstruction from a Single Still Image   总被引:4,自引:0,他引:4  
We consider the task of 3-d depth estimation from a single still image. We take a supervised learning approach to this problem, in which we begin by collecting a training set of monocular images (of unstructured indoor and outdoor environments which include forests, sidewalks, trees, buildings, etc.) and their corresponding ground-truth depthmaps. Then, we apply supervised learning to predict the value of the depthmap as a function of the image. Depth estimation is a challenging problem, since local features alone are insufficient to estimate depth at a point, and one needs to consider the global context of the image. Our model uses a hierarchical, multiscale Markov Random Field (MRF) that incorporates multiscale local- and global-image features, and models the depths and the relation between depths at different points in the image. We show that, even on unstructured scenes, our algorithm is frequently able to recover fairly accurate depthmaps. We further propose a model that incorporates both monocular cues and stereo (triangulation) cues, to obtain significantly more accurate depth estimates than is possible using either monocular or stereo cues alone.  相似文献   

13.
在疾病诊断、手术引导及放射性治疗等图像辅助诊疗场景中,将不同时间、不同模态或不同设备的图像通过合理的空间变换进行配准是必要的处理流程之一。随着深度学习的快速发展,基于深度学习的医学图像配准研究以其耗时短、精度高的优势吸引了研究者的广泛关注。本文全面整理了2015—2019年深度医学图像配准方向的论文,系统地分析了深度医学图像配准领域的最新研究进展,展现了深度配准算法研究从迭代优化到一步预测、从有监督学习到无监督学习的总体发展趋势。具体来说,本文在界定深度医学图像配准问题和介绍配准研究分类方法的基础上,以相关算法的网络训练过程中所使用的监督信息多少作为分类标准,将深度医学图像配准划分为全监督、双监督与弱监督、无监督医学图像配准方法。全监督配准方法通过采用随机变换、传统算法和模型生成等方式获取近似的金标准作为监督信息;双监督、无监督配准方法通过引入图像相似度损失、标签相似度损失等其他监督信息以降低对金标准的依赖;无监督配准方法则完全消除对标注数据的需要,仅使用图像相似度损失和正则化损失监督网络训练。目前,无监督医学图像算法已经成为医学图像配准领域的研究重点,在无需获得代价高昂的标注信息下就能够取得与有监督和传统方法相当甚至更高的配准精度。在此基础上,本文进一步讨论了医学图像配准研究后续可能的4个未来挑战,希望能够为更高精度、更高效率的深度医学图像配准算法的研究提供方向,并推动深度医学图像配准技术在临床诊疗中落地应用。  相似文献   

14.
医学影像的诊断是许多临床决策的基础,而医学影像的智能分析是医疗人工智能的重要组成部分。与此同时,随着越来越多3D空间传感器的兴起和普及,3D计算机视觉正变得越发重要。本文关注医学影像分析和3D计算机的交叉领域,即医学3D计算机视觉或医学3D视觉。本文将医学3D计算机视觉系统划分为任务、数据和表征3个层面,并结合最新文献呈现这3个层面的研究进展。在任务层面,介绍医学3D计算机视觉中的分类、分割、检测、配准和成像重建,以及这些任务在临床诊断和医学影像分析中的作用和特点。在数据层面,简要介绍了医学3D数据中最重要的数据模态:包括计算机断层成像(computed tomography,CT)、磁共振成像(magnetic resonance imaging,MRI)、正电子放射断层成像(positron emission tomography,PET)等,以及一些新兴研究提出的其他数据格式。在此基础上,整理了医学3D计算机视觉中重要的研究数据集,并标注其数据模态和主要视觉任务。在表征层面,介绍并讨论了2D网络、3D网络和混合网络在医学3D数据的表征学习上的优缺点。此外,针对医学影像中普遍存在的小数据问题,重点讨论了医学3D数据表征学习中的预训练问题。最后,总结了目前医学3D计算机视觉的研究现状,并指出目前尚待解决的研究挑战、问题和方向。  相似文献   

15.
深度学习技术应用到多聚焦图像融合领域时,其大多通过监督学习的方式来训练网络,但由于缺乏专用于多聚焦图像融合的监督训练的标记数据集,且制作专用的大规模标记训练集代价过高,所以现有方法多通过在聚焦图像中随机添加高斯模糊进行监督学习,这导致网络训练难度大,很难实现理想的融合效果。为解决以上问题,提出了一种易实现且融合效果好的多聚焦图像融合方法。通过在易获取的无标记数据集上以无监督学习方式训练引入了注意力机制的encoder-decoder网络模型,获得输入源图像的深层特征。再通过形态聚焦检测对获取的特征进行活动水平测量生成初始决策图。运用一致性验证方法对初始决策图优化,得到最终的决策图。融合图像质量在主观视觉和客观指标两方面上进行评定,经实验结果表明,融合图像清晰度高,保有细节丰富且失真度小。  相似文献   

16.
图像超分辨率技术的回顾与展望   总被引:1,自引:0,他引:1  
图像超分辨率(SR)是计算机视觉中提高图像和视频分辨率的一类重要技术。近年来,得益于神经网络的成功,基于深度学习的图像超分辨率技术正在蓬勃发展,这无疑是超分辨率技术研究的主流方向。对超分辨率工作进行综述。首先,总结目前已有的超分辨率技术,根据其输入输出进行分类介绍;其次,将基于深度学习的单图像超分辨率技术分为有监督学习和无监督学习两类进行论述,并对部分具有代表性的最新超分辨率重建技术进行总结分类介绍;然后,讨论了超分辨率技术的相关问题,即性能评价指标、标准数据集,进而对几种典型算法进行实验对比;最后,对图像超分辨率算法未来的研究趋势进行展望。  相似文献   

17.
祁磊  于沛泽  高阳 《软件学报》2020,31(9):2883-2902
近年来随着智能监控领域的不断发展,行人重识别问题逐渐受到学术界和工业界的广泛关注,其主要研究将不同摄像头下相同身份的行人图像进行关联.当前大部分研究工作关注在有监督场景下,即给定的训练数据都存在标记信息,然而考虑到数据标注工作的高成本,这在现实应用中往往是难以拓展的.本文关注于弱监督场景下的行人重识别算法,包括无监督场景和半监督场景,并且对当前先进的方法进行了分类和描述.对于无监督场景的行人重识别算法,本文根据其技术类型划分为五类,分别为基于伪标记的方法、基于图像生成的方法、基于实例分类的方法、基于领域自适应的方法和其他方法;对于半监督场景的行人重识别方法,本文根据其场景类型划分为四类,分别为少量的人有标记的场景、每一个人有少量标记的场景、基于tracklet的学习的场景和摄像头內有标记但摄像头间无标记的场景.最后,本文对当前行人重识别的相关数据集进行了整理,并对现有的弱监督方法的实验结果进行分析与总结.  相似文献   

18.
目前多数图像分类的方法是采用监督学习或者半监督学习对图像进行降维,然而监督学习与半监督学习需要图像携带标签信息。针对无标签图像的降维及分类问题,提出采用混阶栈式稀疏自编码器对图像进行无监督降维来实现图像的分类学习。首先,构建一个具有三个隐藏层的串行栈式自编码器网络,对栈式自编码器的每一个隐藏层单独训练,将前一个隐藏层的输出作为后一个隐藏层的输入,对图像数据进行特征提取并实现对数据的降维。其次,将训练好的栈式自编码器的第一个隐藏层和第二个隐藏层的特征进行拼接融合,形成一个包含混阶特征的矩阵。最后,使用支持向量机对降维后的图像特征进行分类,并进行精度评价。在公开的四个图像数据集上将所提方法与七个对比算法进行对比实验,实验结果表明,所提方法能够对无标签图像进行特征提取,实现图像分类学习,减少分类时间,提高图像的分类精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号