首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于运动恢复结构与视图合成的自监督范式,引入条件卷积与极化自注意力,提出新的单目深度与位姿估计模型。条件卷积对不同输入数据进行多组动态的卷积权重赋值,所有权重在经过加权整合后共享一次卷积操作,在不显著增加计算量的情况下实现模型容量的提升。图像信息完整性对深度估计任务的性能有极大影响,极化自注意力通过极化滤波使数据在通道或空间维度上保持高分辨率,防止图像的细粒度信息或结构信息丢失;同时压缩与通道或空间正交的维度,减小计算量,并通过非线性函数对压缩过程中损失的特征强度范围进行增强与动态映射。自注意力机制可以实现数据在各维度上的长距离建模。在KITTI数据集上进行实验,证明了所提出模型在自监督单目深度与位姿估计任务中有优异的性能表现。  相似文献   

2.
使用深度学习方法进行单目深度估计时,由于使用多级下采样会出现重建结果细节信息缺失、边缘轮廓模糊等问题.为此,提出一种基于高分辨率网络的自监督单目深度估计方法.首先,通过并行连接使得特征图在编码过程中始终保持高分辨率表示,以充分地保留细节信息;其次,为了提高编码器的学习能力,在编码部分引入注意力模块,对图像特征进行筛选和提炼;最后,针对深度估计的多义性问题,利用非相邻帧图像之间的一致性,设计了一种有效的损失函数,并使用可靠性掩膜来消除动点和遮挡点的干扰.在TensorFlow框架下采用KITTI和Cityscapes数据集进行实验,实验结果表明,与已有深度估计方法相比,该方法不仅能够保留预测深度的边缘信息,而且能够提高预测深度的准确性,可达到0.119的平均相对误差.  相似文献   

3.
目的单目相机运动轨迹恢复由于输入只有单目视频序列而缺乏尺度信息,生成的轨迹存在严重漂移而无法进行高精度应用。为了能够运用单目相机普及度高、成本低的优势,提出一种基于场景几何的方法在自动驾驶领域进行真实尺度恢复。方法首先使用深度估计网络对连续图像进行相对深度估计,利用估计的深度值将像素点从2维平面投影到3维空间。然后对光流网络估计出的光流进行前后光流一致性计算得到有效匹配点,使用传统方法求解位姿,使相对深度与位姿尺度统一。再利用相对深度值计算表面法向量图求解地面点群,通过几何关系计算相同尺度的相机高度后引入相机先验高度得到初始尺度。最后为了减小图像噪声对尺度造成的偏差,由额外的车辆检测模块计算出的补偿尺度与初始尺度加权得到最终尺度。结果实验在KITTI(Karlsruhe Institute of Technology and Toyota Technological at Chicago)自动驾驶数据集上进行,相机运动轨迹和图像深度均在精度上得到提高。使用深度真实值尺度还原后的相对深度的绝对误差为0.114,使用本文方法进行尺度恢复后的绝对深度的绝对误差为0.116。对得到的相机运动轨...  相似文献   

4.
叶星余  何元烈  汝少楠 《机器人》2021,43(2):203-213
提出了一种基于生成式对抗网络(GAN)和自注意力机制(self-attention mechanism)的单目视觉里程计方法,命名为SAGANVO(SAGAN visual odometry).该方法将生成式对抗网络学习框架应用于深度估计和视觉里程计任务中,通过GAN生成逼真的目标帧来准确求解出场景的深度图和6自由度位姿.与此同时,为了提高深度网络对场景细节、边缘轮廓的学习能力,将自注意力机制结合到网络模型中.最后,在公开数据集KITTI上展现了所提出的模型和方法的高质量结果,并与现有方法进行了对比,证明了SAGANVO在深度估计和位姿估计中的性能优于现有的主流方法.  相似文献   

5.
空洞空间金字塔池化(ASPP)在深度学习各种任务中均有应用,传统ASPP模块只考虑了提升卷积感受视野,但ASPP中的每次空洞卷积选取的像素点分散,会丢失大量像素点间的信息,而深度估计属于密集预测任务。针对ASPP模块这一弊端提出了一种动态密集的DSPP模块。该模块用一种动态卷积代替空洞卷积,结合ASPP的思想,采用不同大小的卷积尺寸,并结合通道注意力充分利用每一层的特征,解决了ASPP丢失信息的问题,与ASPP相比在大大减小模块参数量的前提下,提升了整体模型的准确率。在NYU Depth v2数据集上与主流算法相比深度图在均方根误差(RMSE)上降低了12.5%,到0.407,并且准确率(δ<1.25)提高了3.4%,达到0.875,验证了算法的有效性。  相似文献   

6.
针对传统方法在单目图像深度估计时精度低、速度慢等问题,提出一种全卷积编码-解码网络模型,该模型将稀疏的深度样本集和RGB图像作为输入,编码层由Resnet和一个卷积层组成,解码层由两个上采样层和一个双线性上采样层组成,上采样层采用上卷积模块和上投影模块交叉使用,有效降低了棋盘效应并保留了预测深度图像的边缘信息.同时,模...  相似文献   

7.
目前, 大多数的增强现实和自动驾驶应用不仅会使用到深度网络估计的深度信息, 还会使用到位姿网络估计的位姿信息. 将位姿网络和深度网络同时集成到嵌入式设备上, 会极大地消耗内存. 为解决这一问题, 提出一种深度网络和位姿网络共用特征提取器的方法, 使模型保持在一个轻量级的尺寸. 此外, 通过带有线性结构的深度可分离卷积轻量化深度网络, 使网络在不丢失过多细节信息前提下还可获得更少的参数量. 最后, 通过在KITTI数据集上的实验表明, 与同类算法相比, 该位姿网络和深度网络参数量只有的 35.33 MB. 同时, 恢复深度图的平均绝对误差也保持在0.129.  相似文献   

8.
王亚群  戴华林  王丽  李国燕 《计算机工程》2021,47(11):262-267,291
为解决目前单目图像深度估计方法存在的精度低、网络结构复杂等问题,提出一种密集卷积网络结构,该网络采用端到端的编码器和解码器结构。编码器引入密集卷积网络DenseNet,将前面每一层的输出作为本层的输入,在加强特征重用和前向传播的同时减少参数量和网络计算量,从而避免梯度消失问题发生。解码器结构采用带有空洞卷积的上投影模块和双线性插值模块,以更好地表达由编码器所提取的图像特征,最终得到与输入图像相对应的估计深度图。在NYU Depth V2室内场景深度数据集上进行训练、验证和测试,结果表明,该密集卷积网络结构在δ<1.25时准确率达到0.851,均方根误差低至0.482。  相似文献   

9.
深度图与相机位姿参数是图像三维场景重建的重要数据,使用两个卷积网络分别预测,不仅效率低并且切断了二者之间的联系.对此提出一种联合预测深度图与相机位姿的卷积神经网络,输入单幅RGB图像,经过共享编码器编码,经两路子网络分别解码输出深度图与相机位姿参数,其中位姿预测子网络也为双路结构,将位置与姿态参数分离,避免两类参数的串扰.该网络的多任务结构通过信息共享可提升预测精度和效率.实验验证了该方法的可行性与优异性.  相似文献   

10.
目的 无监督单目图像深度估计是3维重建领域的一个重要方向,在视觉导航和障碍物检测等领域具有广泛的应用价值。针对目前主流方法存在的局部可微性问题,提出了一种基于局部平面参数预测的方法。方法将深度估计问题转化为局部平面参数估计问题,使用局部平面参数预测模块代替多尺度估计中上采样及生成深度图的过程。在每个尺度的深度图预测中根据局部平面参数恢复至标准尺度,然后依据针孔相机模型得到标准尺度深度图,以避免使用双线性插值带来的局部可微性,从而有效规避陷入局部极小值,配合在网络跳层连接中引入的串联注意力机制,提升网络的特征提取能力。结果 在KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)自动驾驶数据集上进行了对比实验以及消融实验,与现存无监督方法和部分有监督方法进行对比,相比于最优数据,误差性指标降低了10% 20%,准确性指标提升了2%左右,同时,得到的稠密深度估计图具有清晰的边缘轮廓以及对反射区域更优的鲁棒性。结论 本文提出的基于局部平面参数预测的深度估计方法,充分利用卷积特征信息,避免了训练过程中陷入局部极小值,同时对网络添加几何约束,使测试指标及视觉效果更加优秀。  相似文献   

11.
陈宗海  洪洋  王纪凯  葛振华 《机器人》2019,41(2):147-155
提出了一种基于卷积长短期记忆(LSTM)网络和卷积神经网络(CNN)的单目视觉里程计方法,命名为LSTMVO(LSTM visual odometry).LSTMVO采用无监督的端到端深度学习框架,对单目相机的6-DoF位姿以及场景深度进行同步估计.整个网络框架包含位姿估计网络以及深度估计网络,其中位姿估计网络是以端到端方式实现单目位姿估计的深度循环卷积神经网络(RCNN),由基于卷积神经网络的特征提取和基于循环神经网络(RNN)的时序建模组成,深度估计网络主要基于编码器和解码器架构生成稠密的深度图.同时本文还提出了一种新的损失函数进行网络训练,该损失函数由图像序列之间的时序损失、深度平滑度损失和前后一致性损失组成.基于KITTI数据集的实验结果表明,通过在原始单目RGB图像上进行训练,LSTMVO在位姿估计精度以及深度估计精度方面优于现有的主流单目视觉里程计方法,验证了本文提出的深度学习框架的有效性.  相似文献   

12.
场景的深度估计问题是计算机视觉领域中的经典问题之一,也是3维重建和图像合成等应用中的一个重要环节。基于深度学习的单目深度估计技术高速发展,各种网络结构相继提出。本文对基于深度学习的单目深度估计技术最新进展进行了综述,回顾了基于监督学习和基于无监督学习方法的发展历程。重点关注单目深度估计的优化思路及其在深度学习网络结构中的表现,将监督学习方法分为多尺度特征融合的方法、结合条件随机场(conditional random field,CRF)的方法、基于序数关系的方法、结合多元图像信息的方法和其他方法等5类;将无监督学习方法分为基于立体视觉的方法、基于运动恢复结构(structure from motion,SfM)的方法、结合对抗性网络的方法、基于序数关系的方法和结合不确定性的方法等5类。此外,还介绍了单目深度估计任务中常用的数据集和评价指标,并对目前基于深度学习的单目深度估计技术在精确度、泛化性、应用场景和无监督网络中不确定性研究等方面的现状和面临的挑战进行了讨论,为相关领域的研究人员提供一个比较全面的参考。  相似文献   

13.
针对现有自监督学习的单目图像深度估计在分辨率较大情况下存在边缘模糊、物体轮廓不清晰等问题,本文提出一种结合视觉Transformer的多尺度通道注意力融合单目图像深度估计网络.首先,设计编码器-解码器模型,将视觉Transformer结构作为编码器在多个尺度上提取特征.其次,设计残差通道注意力融合的解码器,优化提取到的多尺度特征并实现上下级特征融合以提高上下文信息的利用率.最后,在多个尺度下对单目图像进行深度估计.本文提出的算法在KITTI数据集上进行实验.实验结果表明,所提出算法的深度图像质量和物体轮廓信息均高于现有算法,其绝对相对误差、平方相对误差和均方根误差分别达到了0.119、0.857和4.571,在不同阈值下的准确度达到了0.959、0.995和0.999,验证了所提算法的正确性和有效性.  相似文献   

14.
单目深度估计是计算机视觉领域中的一个基本问题,面片匹配与平面正则化网络(P2Net)是现阶段最先进的无监督单目深度估计方法之一.由于P2Net中深度预测网络所采用的上采样方法为计算过程较为简单的最近邻插值算法,使得预测深度图的生成质量较差.因此,本文基于多种上采样算法构建出残差上采样结构来替换原网络中的上采样层,以获取更多特征信息,提高物体结构的完整性.在NYU-Depth V2数据集上的实验结果表明,基于反卷积算法、双线性插值算法和像素重组算法的改进P2Net网络相较原网络在均方根误差RMSE指标上分别降低了2.25%、2.73%和3.05%.本文的残差上采样结构提高了预测深度图的生成质量,降低了预测误差.  相似文献   

15.
场景深度估计是场景理解的一项基本任务,其准确率反映了计算机对场景的理解程度.传统的深度估计利用金字塔池化(ASPP)模块可以在不改变图像分辨率的情况下处理不同像素特征,但该模块未考虑不同像素特征之间的关系,导致场景特征提取不准确.针对ASPP模块在深度估计中出现的弊端,提出了一种改进型的ASPP模块,解决了该模块在图像...  相似文献   

16.
在基于深度学习的单目图像深度估计方法中, 卷积神经网络在下采样过程中会出现图像深度信息丢失的情况, 导致物体边缘深度估计效果不佳. 提出一种多尺度特征融合的方法, 并采用自适应融合的策略, 根据特征数据动态调整不同尺度特征图的融合比例, 实现对多尺度特征信息的充分利用. 由于空洞空间金字塔池化(ASPP)在单目深度估计任务中, 会丢失图像中的像素点信息, 影响小物体的预测结果. 通过在对深层特征图使用ASPP时融合浅层特征图的丰富特征信息, 提高深度估计结果. 在NYU-DepthV2室内场景数据集的实验结果表明, 本文所提方法在物体边缘处有更准确的预测, 并且对小物体的预测有明显的提升, 均方根误差(RMSE)达到0.389, 准确率(δ <1.25)达到0.897, 验证了方法的有效性.  相似文献   

17.
针对遮挡和杂乱光线导致的不同区域深度边缘模糊、边界伪影等问题,提出一种结合多任务轻量型卷积神经网络的单目深度图像估计方法。利用全景分割网络来辅助单幅图片的深度估计,选择MobileNetv2作为特征提取网络,解码器端融合以上两类任务进行相似性辅助决策。提出一种多任务融合模块,包括多尺度映射单元和多任务融合单元两部分,利用深度空洞卷积扩大不同感受野,融合多任务来优化深度图像的估计。此外编解码器结构之间添加跳跃连接实现不同层次的知识传递。在NYUdepth-v2数据集上的对比实验结果表明,该方法深度图估计结果更加清晰,并能有效去除深度图中的边界模糊,同时该网络在参数数量上相较大多数估计方法大幅度减少,准确率明显提升。  相似文献   

18.
计算机硬件的发展极大程度地促进了计算机视觉的发展,卷积神经网络在语义分割中取得了令人瞩目的成就,但多卷积层叠加难免造成图像中目标边界信息的丢失。为了尽可能保留边界信息,提高图像分割精度,提出一种多尺度空洞卷积神经网络模型。该模型利用多尺度池化适应图像中不同尺度目标,并利用空洞卷积学习目标特征,在更加准确识别目标的同时,提高目标边界的识别精度,在ISPRS Vaihingen数据集上的实验结果表明,提出的多尺度空洞卷积神经网络对于目标边界的拟合结果较为理想。  相似文献   

19.
针对单目深度估计网络庞大的参数量和计算量,提出一种轻量金字塔解码结构的单目深度估计网络,可以在保证估计精度的情况下降低网络模型的复杂度、减少运算时间。该网络基于编解码结构,以端到端的方式估计单目图像的深度图。编码端使用ResNet50网络结构;在解码端提出了一种轻量金字塔解码模块,采用深度空洞可分离卷积和分组卷积以提升感受野范围,同时减少了参数量,并且采用金字塔结构融合不同感受野下的特征图以提升解码模块的性能;此外,在解码模块之间增加跳跃连接实现知识共享,以提升网络的估计精度。在NYUD v2数据集上的实验结果表明,与结构注意力引导网络相比,轻量金字塔解码结构的单目深度估计网络在误差RMS的指标上降低约11.0%,计算效率提升约84.6%。  相似文献   

20.
为了提高利用深度神经网络预测单图像深度信息的精确度,提出了一种采用自监督卷积神经网络进行单图像深度估计的方法.首先,该方法通过在编解码结构中引入残差结构、密集连接结构和跳跃连接等方式改进了单图像深度估计卷积神经网络,改善了网络的学习效率和性能,加快了网络的收敛速度;其次,通过结合灰度相似性、视差平滑和左右视差匹配等损失度量设计了一种更有效的损失函数,有效地降低了图像光照因素影响,遏制了图像深度的不连续性,并能保证左右视差的一致性,从而提高深度估计的鲁棒性;最后,采用立体图像作为训练数据,无需目标深度监督信息,实现了端到端的单幅图像深度估计.在TensorFlow框架下,用KITTI和Cityscapes数据集进行实验,结果表明,与目前的主流方法相比,该方法在预测深度的精确度方面有较大提升,拥有更好的深度预测性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号