共查询到20条相似文献,搜索用时 15 毫秒
1.
使用深度学习方法进行单目深度估计时,由于使用多级下采样会出现重建结果细节信息缺失、边缘轮廓模糊等问题.为此,提出一种基于高分辨率网络的自监督单目深度估计方法.首先,通过并行连接使得特征图在编码过程中始终保持高分辨率表示,以充分地保留细节信息;其次,为了提高编码器的学习能力,在编码部分引入注意力模块,对图像特征进行筛选和提炼;最后,针对深度估计的多义性问题,利用非相邻帧图像之间的一致性,设计了一种有效的损失函数,并使用可靠性掩膜来消除动点和遮挡点的干扰.在TensorFlow框架下采用KITTI和Cityscapes数据集进行实验,实验结果表明,与已有深度估计方法相比,该方法不仅能够保留预测深度的边缘信息,而且能够提高预测深度的准确性,可达到0.119的平均相对误差. 相似文献
2.
目前, 大多数的增强现实和自动驾驶应用不仅会使用到深度网络估计的深度信息, 还会使用到位姿网络估计的位姿信息. 将位姿网络和深度网络同时集成到嵌入式设备上, 会极大地消耗内存. 为解决这一问题, 提出一种深度网络和位姿网络共用特征提取器的方法, 使模型保持在一个轻量级的尺寸. 此外, 通过带有线性结构的深度可分离卷积轻量化深度网络, 使网络在不丢失过多细节信息前提下还可获得更少的参数量. 最后, 通过在KITTI数据集上的实验表明, 与同类算法相比, 该位姿网络和深度网络参数量只有的 35.33 MB. 同时, 恢复深度图的平均绝对误差也保持在0.129. 相似文献
3.
在基于深度学习的单目图像深度估计方法中, 卷积神经网络在下采样过程中会出现图像深度信息丢失的情况, 导致物体边缘深度估计效果不佳. 提出一种多尺度特征融合的方法, 并采用自适应融合的策略, 根据特征数据动态调整不同尺度特征图的融合比例, 实现对多尺度特征信息的充分利用. 由于空洞空间金字塔池化(ASPP)在单目深度估计任务中, 会丢失图像中的像素点信息, 影响小物体的预测结果. 通过在对深层特征图使用ASPP时融合浅层特征图的丰富特征信息, 提高深度估计结果. 在NYU-DepthV2室内场景数据集的实验结果表明, 本文所提方法在物体边缘处有更准确的预测, 并且对小物体的预测有明显的提升, 均方根误差(RMSE)达到0.389, 准确率(δ <1.25)达到0.897, 验证了方法的有效性. 相似文献
4.
针对现有自监督学习的单目图像深度估计在分辨率较大情况下存在边缘模糊、物体轮廓不清晰等问题,本文提出一种结合视觉Transformer的多尺度通道注意力融合单目图像深度估计网络.首先,设计编码器-解码器模型,将视觉Transformer结构作为编码器在多个尺度上提取特征.其次,设计残差通道注意力融合的解码器,优化提取到的多尺度特征并实现上下级特征融合以提高上下文信息的利用率.最后,在多个尺度下对单目图像进行深度估计.本文提出的算法在KITTI数据集上进行实验.实验结果表明,所提出算法的深度图像质量和物体轮廓信息均高于现有算法,其绝对相对误差、平方相对误差和均方根误差分别达到了0.119、0.857和4.571,在不同阈值下的准确度达到了0.959、0.995和0.999,验证了所提算法的正确性和有效性. 相似文献
5.
为了解决行人重识别中行人特征表达不充分、忽视相邻区域的语义相关性等问题,提出了多尺度多特征融合的行人重识别模型.首先,通过多分支结构获取包含不同信息的特征图;其次,通过组合相邻的局部区域,强调局部特征之间的语义相关性;最后,结合最大池化和平均池化的优势,从不同的方向学习更加全面的特征信息.分别在Market-1501,DukeMTMC-reID以及MSMT17数据集上进行实验,结果表明,在光照不同、拍摄角度不同等环境下,文中模型的mAP分别达到了88.40%,78.50%,59.20%,能够有效地提取行人特征,识别精度较高. 相似文献
6.
针对核相关滤波目标跟踪算法(KCF)使用单特征来描述所跟踪的目标,在复杂环境下,目标尺
度发生较大变化时,无法准确跟踪目标的问题,提出基于深度估计和特征融合的尺度自适应目标跟踪算法。首
先利用深度神经网络估计视频序列中目标的深度,建立并训练深度-尺度估计模型;在跟踪过程中,融合目标
方向梯度直方图(HOG)特征和 CN (Color Name)特征训练相关滤波器,利用深度估计网络得到目标深度值,并
利用深度-尺度估计模型得到目标的尺度值,从而在目标尺度发生变化时,能够调整目标框大小,实现尺度自
适应的目标跟踪算法。实验结果表明,与经典的 KCF 算法相比,可获得更高的精度,与尺度自适应的判别型
尺度空间跟踪(DSST)算法相比,在尺度变化较大时,跟踪速度更快;在环境复杂、目标被遮挡时,鲁棒性更好。 相似文献
7.
仵宇 《计算机与数字工程》2022,(6):1263-1267
场景深度估计是场景理解的一项基本任务,其准确率反映了计算机对场景的理解程度。单目深度估计任务本身是一个不适定问题,因此在很大程度上依赖于场景的先验知识和其他辅助信息,语义信息能够有效地帮助深度估计更好地进行预测。针对单目深度估计任务的特有问题,提出了一种基于融合语义特征的深度神经网络模型,通过像素自适应卷积将目标图像的语义信息融合到深度网络,以提高深度估计的准确性。为了充分利用多尺度图像特征,引入DenseNet模型的基础模块,自适应融合各尺度的有效特征。在NYU-DepthV2室内场景数据集的实验结果显示,验证了模型和方法的有效性,提出的方法在定性和定量评价方面都取得了具有竞争力的结果。 相似文献
8.
场景的深度估计问题是计算机视觉领域中的经典问题之一,也是3维重建和图像合成等应用中的一个重要环节。基于深度学习的单目深度估计技术高速发展,各种网络结构相继提出。本文对基于深度学习的单目深度估计技术最新进展进行了综述,回顾了基于监督学习和基于无监督学习方法的发展历程。重点关注单目深度估计的优化思路及其在深度学习网络结构中的表现,将监督学习方法分为多尺度特征融合的方法、结合条件随机场(conditional random field,CRF)的方法、基于序数关系的方法、结合多元图像信息的方法和其他方法等5类;将无监督学习方法分为基于立体视觉的方法、基于运动恢复结构(structure from motion,SfM)的方法、结合对抗性网络的方法、基于序数关系的方法和结合不确定性的方法等5类。此外,还介绍了单目深度估计任务中常用的数据集和评价指标,并对目前基于深度学习的单目深度估计技术在精确度、泛化性、应用场景和无监督网络中不确定性研究等方面的现状和面临的挑战进行了讨论,为相关领域的研究人员提供一个比较全面的参考。 相似文献
9.
针对直接法DSO(Direct Sparse Odometry)存在的明显的尺度不确定性问题,对尺度不确定性给系统定位精度带来的影响进行分析,提出将对单幅图像进行深度估计的深度学习网络和DSO相结合的融合算法;针对DSO后端耗时问题,提出运用预处理共轭梯度(Preconditioned Conjugate gradie... 相似文献
10.
单目图像深度估计是一个病态问题,究其原因在于单一图像中缺乏深度信息。随着深度学习技术的不断发展,深度神经网络在单目图像深度估计领域取得了一定的突破。现有的深度网络模型采用编码-解码结构,编码器往往采用全卷积的方式来获取特征图像,但提取的特征图像往往不能很好地反映图像原有的信息。因此,通过对图像编码器进行改进,对提取的不同尺度下的特征进行融合,使得特征图像能更好地反映原有的图像信息。并且在训练时,在左右一致性损失的基础上引入Wasserstein距离损失对模型进行约束。实验结果表明,模型在KITTI数据集上具有较好的表现,预测得到的深度图像具有较高的准确性。 相似文献
11.
研究深度估计和语义分割的图像之间的互利关系,提出了一种联合语义分割的自监督单目深度估计方法 USegDepth.语义分割和深度估计任务通过共享编码器,实现语义引导.为了进一步提高编码器的跨多任务性能,设计了多任务特征提取模块,堆叠该模块构成共享编码器,解决有限感受野和缺乏跨通道交互导致的模型特征表示能力欠佳问题,进一步提升模型精度.同时,提出跨任务交互模块,通过双向的跨域信息交互细化特征表示,提升深度估计表现,特别是光度一致性监督有限的弱纹理区域和物体边界.通过在KITTI数据集上的训练和全面评估,实验结果显示所提的USegDepth模型方法的均方相对误差相比于SGDepth降低了0.176个百分点,在阈值为1.253的阈值精度达到了98.4%,证明了USegDepth在深度预测上具有较高的准确率. 相似文献
12.
针对单目同时定位与地图构建(simultan-eous localization and mapping,SLAM)技术存在的尺度不确定性问题,提出一种结合深度预测网络来估计绝对尺度的单目SLAM算法.利用MonoDepth网络对单目图像进行深度预测,与从单目图像中提取的O RB特征点进行深度值的数据关联,通过设定深度... 相似文献
13.
目的 拍摄运动物体时,图像易出现运动模糊,这将影响计算机视觉任务的完成。为提升运动图像去模糊的质量,提出了基于深度特征融合注意力的双尺度去运动模糊网络。方法 首先,设计了双尺度网络,在网络结构上设计高低尺度通路,在低尺度上增加对模糊区域的注意力,在高尺度上提升网络的高频细节恢复能力,增强了模型去模糊效果。其次,设计了深度特征融合注意力模块,通过融合全尺度特征、构建通道注意力,将编码的全尺度特征与解码的同级特征进行拼接融合,进一步增强了网络的去模糊性能和细节恢复能力。最后,在双尺度的基础上,引入多尺度损失,使模型更加关注高频细节的恢复。结果 在3个数据集上,与12种去模糊方法进行了对比实验。在GoPro数据集上得到了最优结果,相比SRN (scale-recurrent network)方法,平均峰值信噪比提升了2.29 dB,能够恢复出更多的细节信息。在Kohler数据集上,得到了最高的峰值信噪比(29.91 dB)。在Lai数据集上,视觉上有最好的去模糊效果。结论 实验结果表明,本文方法可以有效去除运动模糊并恢复细节。 相似文献
14.
深度信息的获取是场景解析中是非常重要的环节,主要分为传感器获取与图像处理两种方法。传感器技术对环境要求很高,因此图像处理为更通用的方法。传统的方法通过双目立体标定,利用几何关系得到深度,但仍因为环境因素限制诸多。因此,作为最贴近实际情况的方法,单目图像深度估计具有极大研究价值。为此,针对单目图像深度估计,提出了一种基于DenseNet的单目图像深度估计方法,该方法利用多尺度卷积神经网络分别采集全局特征、局部特征;加入了DenseNet结构,利用DenseNet强特征传递、特征重用等特点,优化特征采集过程。通过NYU Depth V2数据集上验证了模型的有效性,实验结果表明,该方法的预测结果平均相对误差为0.119,均方根误差为0.547,对数空间平均误差为0.052。 相似文献
15.
基于运动恢复结构与视图合成的自监督范式,引入条件卷积与极化自注意力,提出新的单目深度与位姿估计模型。条件卷积对不同输入数据进行多组动态的卷积权重赋值,所有权重在经过加权整合后共享一次卷积操作,在不显著增加计算量的情况下实现模型容量的提升。图像信息完整性对深度估计任务的性能有极大影响,极化自注意力通过极化滤波使数据在通道或空间维度上保持高分辨率,防止图像的细粒度信息或结构信息丢失;同时压缩与通道或空间正交的维度,减小计算量,并通过非线性函数对压缩过程中损失的特征强度范围进行增强与动态映射。自注意力机制可以实现数据在各维度上的长距离建模。在KITTI数据集上进行实验,证明了所提出模型在自监督单目深度与位姿估计任务中有优异的性能表现。 相似文献
16.
由于在深度卷积网络中,深度估计的最终结果往往只利用到了网络的高层特征信息,对于底层特征的信息难以利用。为了解决这个问题,提出融合多层次特征的CNN(Convolutional Neural Network)深度估计方法。高层特征一般包含了图像整体的空间结构信息,而底层特征往往会包含大量的物体细节信息。网络对于底层特征的信息利用不足,造成深度估计的效果比较模糊。为了解决这一问题,采用融合多层次特征的方法,通过设定特定的网络结构,结合反卷积和池化方法,融合不同层次的CNN特征,使得网络能够同时利用底层与高层信息进行深度估计。通过在KITTI与ApolloScape数据集上的实验证明,该方法有效地提高了深度估计的精度。 相似文献
17.
目的 图像的变化检测是视觉领域的一个重要问题,传统的变化检测对光照变化、相机位姿差异过于敏感,使得在真实场景中检测结果较差。鉴于卷积神经网络(convolutional neural networks,CNN)可以提取图像中的深度语义特征,提出一种基于多尺度深度特征融合的变化检测模型,通过提取并融合图像的高级语义特征来克服检测噪音。方法 使用VGG(visual geometry group)16作为网络的基本模型,采用孪生网络结构,分别从参考图像和查询图像中提取不同网络层的深度特征。将两幅图像对应网络层的深度特征拼接后送入一个编码层,通过编码层逐步将高层与低层网络特征进行多尺度融合,充分结合高层的语义和低层的纹理特征,检测出准确的变化区域。使用卷积层对每一个编码层的特征进行运算产生对应尺度的预测结果。将不同尺度的预测结果融合得到进一步细化的检测结果。结果 与SC_SOBS(SC-self-organizing background subtraction)、SuBSENSE(self-balanced sensitivity segmenter)、FGCD(fine-grained change detection)和全卷积网络(fully convolutional network,FCN)4种检测方法进行对比。与性能第2的模型FCN相比,本文方法在VL_CMU_CD(visual localization of Carnegie Mellon University for change detection)数据集中,综合评价指标F1值和精度值分别提高了12.2%和24.4%;在PCD(panoramic change detection)数据集中,F1值和精度值分别提高了2.1%和17.7%;在CDnet(change detection net)数据集中,F1值和精度值分别提高了8.5%和5.8%。结论 本文提出的基于多尺度深度特征融合的变化检测方法,利用卷积神经网络的不同网络层特征,有效克服了光照和相机位姿差异,在不同数据集上均能得到较为鲁棒的变化检测结果。 相似文献
18.
近年来,基于自注意力机制的编码器-解码器框架已经成为主流的图像描述模型。然而,编码器中的自注意力只建模低尺度特征的视觉关系,忽略了高尺度视觉特征中的一些有效信息,从而影响了生成描述的质量。针对该问题,文中提出了一种基于跨尺度特征融合自注意力的图像描述方法。该方法在进行自注意力运算时,将低尺度和高尺度的视觉特征进行跨尺度融合,从视觉角度上提高自注意力关注的范围,增加有效视觉信息,减少噪声,从而学习到更准确的视觉语义关系。在MS COCO数据集上的实验结果表明,所提方法能够更精确地捕获跨尺度视觉特征间的关系,生成更准确的描述。特别地,该方法是一种通用的方法,通过与其他基于自注意力的图像描述方法相结合,能进一步提高模型性能。 相似文献
19.
目的单目相机运动轨迹恢复由于输入只有单目视频序列而缺乏尺度信息,生成的轨迹存在严重漂移而无法进行高精度应用。为了能够运用单目相机普及度高、成本低的优势,提出一种基于场景几何的方法在自动驾驶领域进行真实尺度恢复。方法首先使用深度估计网络对连续图像进行相对深度估计,利用估计的深度值将像素点从2维平面投影到3维空间。然后对光流网络估计出的光流进行前后光流一致性计算得到有效匹配点,使用传统方法求解位姿,使相对深度与位姿尺度统一。再利用相对深度值计算表面法向量图求解地面点群,通过几何关系计算相同尺度的相机高度后引入相机先验高度得到初始尺度。最后为了减小图像噪声对尺度造成的偏差,由额外的车辆检测模块计算出的补偿尺度与初始尺度加权得到最终尺度。结果实验在KITTI(Karlsruhe Institute of Technology and Toyota Technological at Chicago)自动驾驶数据集上进行,相机运动轨迹和图像深度均在精度上得到提高。使用深度真实值尺度还原后的相对深度的绝对误差为0.114,使用本文方法进行尺度恢复后的绝对深度的绝对误差为0.116。对得到的相机运动轨... 相似文献